课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

成为教练

课程简介

案例背景:
公司内部有越来越多的 AI 服务上线和落地,而很多 AI 服务的业务量并不能够支撑整张 GPU 卡的算力,导致 GPU 卡算力被浪费。
因此该项目是为了将这种类型的 AI 服务部署到同一张 GPU 卡上,来将 GPU 充分利用起来,节省公司成本。
而现在业界或开源方案并没有提供一个成熟可行的 GPU 共享虚拟化方案,我们也调研了收费公司的方案,但是这些方案需要完全重新编译镜像,这个在我们看来对现有业务影响太大,不能接受。
因此我们最后开发上线了对 AI 业务镜像不需要做任何修改的 GPU 显存共享虚拟化方案。

解决思路:
我们深入研究了 CUDA 显存在框架中的分配方式,通过在容器中动态加载的方式,来控制显存的隔离分配,而不需要 AI 服务配置框架参数来达控制显存数量。
改进了阿里的 K8S GPU Sharing Scheduler,开发了容器的显存监控功能来对每个容器的显存使用情况独立监控。

成果:
我们目前主要是将 GPU 共享虚拟化应用到 AI 推理服务部署,使用的服务框架主要是 Tensorflow 和 Pytorch。
项目开发上线以来,已经部署迁移了 30+ 个 AI 服务,通过 GPU 共享虚拟化,GPU 资源优化率达 60% 。
而且 AI 推理服务在 GPU 共享虚拟化方案下运行稳定。

目标收益

1. 业界现有的 GPU 共享虚拟方案化状态
2. GPU 共享虚拟化落地实践的潜在问题
3. 实现 GPU 共享虚拟化的相关技术

培训对象

课程内容

案例方向


高效运维/架构演进/微服务的2.0时代/云原生构建之路

案例背景


公司内部有越来越多的 AI 服务上线和落地,而很多 AI 服务的业务量并不能够支撑整张 GPU 卡的算力,导致 GPU 卡算力被浪费。
因此该项目是为了将这种类型的 AI 服务部署到同一张 GPU 卡上,来将 GPU 充分利用起来,节省公司成本。
而现在业界或开源方案并没有提供一个成熟可行的 GPU 共享虚拟化方案,我们也调研了收费公司的方案,但是这些方案需要完全重新编译镜像,这个在我们看来对现有业务影响太大,不能接受。
因此我们最后开发上线了对 AI 业务镜像不需要做任何修改的 GPU 显存共享虚拟化方案。

收益


1. 业界现有的 GPU 共享虚拟方案化状态
2. GPU 共享虚拟化落地实践的潜在问题
3. 实现 GPU 共享虚拟化的相关技术

解决思路


我们深入研究了 CUDA 显存在框架中的分配方式,通过在容器中动态加载的方式,来控制显存的隔离分配,而不需要 AI 服务配置框架参数来达控制显存数量。
改进了阿里的 K8S GPU Sharing Scheduler,开发了容器的显存监控功能来对每个容器的显存使用情况独立监控。

结果


我们目前主要是将 GPU 共享虚拟化应用到 AI 推理服务部署,使用的服务框架主要是 Tensorflow 和 Pytorch。
项目开发上线以来,已经部署迁移了 30+ 个 AI 服务,通过 GPU 共享虚拟化,GPU 资源优化率达 60% 。
而且 AI 推理服务在 GPU 共享虚拟化方案下运行稳定。

活动详情

提交需求