本 talk 将分享如何在 ia 架构服务器集群上利用基于英特尔优化的 tensorflow、mxnet、pytorch 开源方案高效地搭建分布式 ai 模型训练系统,并利用其进行分布式模型训练。
演讲提纲:
- 构建基于 ia 架构的容器或虚拟化服务器集群
- 如何在 ia 架构服务器优化分布式任务性能
- 如何利用 horovod 构建分布式训练代码
- 如何优化分布式训练超参数
听众收益:
-
了解在 ia 架构服务器集群搭建分布式 ai 模型训练的原理
-
掌握在 ia 架构服务器优化分布式性能的要点
-
获得基于 horovod 分布式方案训练的经验分享
内容亮点:
-
现代 xeon 处理器上的 numa 特性
-
vm、docker 分布式训练环境
-
horovod 分布式训练
评论