爱奇艺 K8S GPU 共享虚拟化架构优化及落地-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

案例背景:
公司内部有越来越多的 AI 服务上线和落地，而很多 AI 服务的业务量并不能够支撑整张 GPU 卡的算力，导致 GPU 卡算力被浪费。
因此该项目是为了将这种类型的 AI 服务部署到同一张 GPU 卡上，来将 GPU 充分利用起来，节省公司成本。
而现在业界或开源方案并没有提供一个成熟可行的 GPU 共享虚拟化方案，我们也调研了收费公司的方案，但是这些方案需要完全重新编译镜像，这个在我们看来对现有业务影响太大，不能接受。
因此我们最后开发上线了对 AI 业务镜像不需要做任何修改的 GPU 显存共享虚拟化方案。

解决思路:
我们深入研究了 CUDA 显存在框架中的分配方式，通过在容器中动态加载的方式，来控制显存的隔离分配，而不需要 AI 服务配置框架参数来达控制显存数量。
改进了阿里的 K8S GPU Sharing Scheduler，开发了容器的显存监控功能来对每个容器的显存使用情况独立监控。

成果:
我们目前主要是将 GPU 共享虚拟化应用到 AI 推理服务部署，使用的服务框架主要是 Tensorflow 和 Pytorch。
项目开发上线以来，已经部署迁移了 30+ 个 AI 服务，通过 GPU 共享虚拟化，GPU 资源优化率达 60% 。
而且 AI 推理服务在 GPU 共享虚拟化方案下运行稳定。

目标收益

1. 业界现有的 GPU 共享虚拟方案化状态
2. GPU 共享虚拟化落地实践的潜在问题
3. 实现 GPU 共享虚拟化的相关技术

培训对象

课程内容

案例方向

高效运维/架构演进/微服务的2.0时代/云原生构建之路

案例背景

公司内部有越来越多的 AI 服务上线和落地，而很多 AI 服务的业务量并不能够支撑整张 GPU 卡的算力，导致 GPU 卡算力被浪费。
因此该项目是为了将这种类型的 AI 服务部署到同一张 GPU 卡上，来将 GPU 充分利用起来，节省公司成本。
而现在业界或开源方案并没有提供一个成熟可行的 GPU 共享虚拟化方案，我们也调研了收费公司的方案，但是这些方案需要完全重新编译镜像，这个在我们看来对现有业务影响太大，不能接受。
因此我们最后开发上线了对 AI 业务镜像不需要做任何修改的 GPU 显存共享虚拟化方案。

收益

1. 业界现有的 GPU 共享虚拟方案化状态
2. GPU 共享虚拟化落地实践的潜在问题
3. 实现 GPU 共享虚拟化的相关技术

解决思路

我们深入研究了 CUDA 显存在框架中的分配方式，通过在容器中动态加载的方式，来控制显存的隔离分配，而不需要 AI 服务配置框架参数来达控制显存数量。
改进了阿里的 K8S GPU Sharing Scheduler，开发了容器的显存监控功能来对每个容器的显存使用情况独立监控。

结果

我们目前主要是将 GPU 共享虚拟化应用到 AI 推理服务部署，使用的服务框架主要是 Tensorflow 和 Pytorch。
项目开发上线以来，已经部署迁移了 30+ 个 AI 服务，通过 GPU 共享虚拟化，GPU 资源优化率达 60% 。
而且 AI 推理服务在 GPU 共享虚拟化方案下运行稳定。

爱奇艺 K8S GPU 共享虚拟化架构优化及落地

爱奇艺爱奇艺基础架构部深度学习平台研究员

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI Agent：全景解析技术演进与企业落地（实操课）

AI Agent架构设计与应用开发

爱奇艺 K8S GPU 共享虚拟化架构优化及落地

爱奇艺 爱奇艺基础架构部深度学习平台研究员

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI Agent：全景解析技术演进与企业落地（实操课）

AI Agent架构设计与应用开发

爱奇艺爱奇艺基础架构部深度学习平台研究员