微软和谷歌的分布式深度学习框架哪个厉害厉害在哪

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的 PipeDream 和谷歌的 GPipe。

原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文(PipeDream，GPipe)中进行了详细介绍，这篇文章将对此进行总结。

众所周知，在实验过程中，虽然训练基本模型比较琐碎，但复杂度却随模型的质量和大小线性增加。例如，2014 年 ImageNet 视觉识别挑战赛的冠军是 GoogleNet，它通过 400 万个参数获得了 74.8% 的 top1 准确性，而仅仅三年之后，2017 年 ImageNet 挑战赛的冠军就使用 1.458 亿个参数(多了 36 倍)的最新神经网络实现了 top1 准确率——82.7%。但是，在同一时期，GPU 内存仅增加了约 3 倍。

随着模型缩放以达到更高的准确性，对这些模型的训练变得越来越具有挑战性。前面的样本也显示了，依靠 GPU 基础结构的改进来实现更好的训练是不可持续的。我们需要分布式计算方法，这些方法可以并行化跨不同节点的训练工作量，以扩展训练规模。分布式训练的概念听起来很琐碎，但实际上却极其复杂。

谷歌的 GPipeGPipe

专注于扩展深度学习计划的训练工作量。从基础架构的角度来看，训练过程的复杂性是深度学习模型经常被忽视的一个方面。训练数据集越来越大，越来越复杂。例如，在医疗保健领域，需要使用数百万个高分辨率图像进行训练的模型并不罕见。结果，训练过程通常要花费很长时间才能完成，并且内存和 CPU 消耗非常大。

思考深度学习模型的分布式的有效方法是将其划分为数据分布式和模型分布式。数据分布式方法采用大型机器集群，将输入数据拆分到它们之间。模型分布式尝试将模型移至具有特定硬件的加速器，例如 GPU 或 TPU，以加速模型训练。

概念上看，几乎所有训练数据集都可以按照一定的逻辑进行分布式训练，但是关于模型的说法却不尽相同。例如，一些深度学习模型由可以独立训练的并行分支组成。在那种情况下，经典策略是将计算划分为多个分区，并将不同的分区分配给不同的分支。但是，这种策略在按顺序堆叠各层的深度学习模型中是不足的。

GPipe 通过利用一种称为流水线的技术将数据和模型分布式结合在一起。从概念上讲，GPipe 是一个分布式机器学习库，它使用同步随机梯度下降和流水线分布式进行训练，适用于由多个连续层组成的任何 DNN。

GPipe 在不同的加速器之间划分模型，并自动将一小批训练样本拆分为较小的微批。该模型允许 GPipe 的加速器并行运行，从而最大限度地提高了训练过程的可扩展性。

下图说明了具有连续层的神经网络的 GPipe 模型在四个加速器之间分配。Fk 是第 k 个分区的复合正向计算函数。Bk 是相应的反向传播函数。Bk 取决于上层的 Bk + 1 和 Fk 的中间激活。在顶级模型中，我们可以看到网络的顺序性质如何导致资源利用不足。下图显示了 GPipe 方法，其中将输入的迷你批处理分为较小的宏批处理，这些宏批处理可由加速器同时处理。

微软的 PipeDream

几个月前，微软研究院宣布创建 Project Fiddle，这是一系列旨在简化分布式深度学习的研究项目。PipeDreams 是 Fiddle 项目首次发布的版本之一，专注于深度学习模型训练的并行化。

PipeDream 采用与其他方法不同的方法来利用称为管道分布式的技术来扩展深度学习模型的训练。这种方法试图解决数据和模型并行技术的一些挑战，例如 GPipe 中使用的技术。

通常，在云基础架构上进行训练时，数据并行方法在规模上会承受较高的通信成本，并且随着时间的推移会提高 GPU 计算速度。类似地，模型分布式技术通常在利用硬件资源上更加效率低下，程序员需要决定如何在给定硬件部署的情况下拆分其特定模型，给他们带来了不必要的负担。

PipeDream 尝试通过使用称为管道分布式的技术来克服数据模型分布式方法的一些挑战。

从概念上讲，管道分布计算涉及将 DNN 模型的各层划分为多个阶段，其中每个阶段均由模型中的一组连续层组成。每个阶段都映射到一个单独的 GPU，该 GPU 对该阶段中的所有层执行正向传递(和反向传递)。

给定一个特定的深度神经网络，PipeDream 会基于在单个 GPU 上执行的简短概要分析，自动确定如何对 DNN 的运算符进行分区，在不同阶段之间平衡计算负载，同时最大程度地减少与目标平台的通信。即使存在模型多样性(计算和通信)和平台多样性(互连拓扑和分层带宽)，PipeDream 也会有效地实现负载平衡。PipeDream 训练分布式的方法的原理比数据模型分布式方法具有多个优点。

对于初学者而言，PipeDream 需要在工作程序节点之间进行较少的通信，因为管道执行中的每个工作程序仅需要将渐变的子集和输出激活信息传达给单个其他工作程序。

训练分布式是构建更大、更准确的深度学习模型的关键挑战之一。分布式训练方法是深度学习社区中一个活跃的研究领域，需要将有效的并发编程技术与深度学习模型的本质相结合。尽管仍处于早期阶段，但 Google 的 GPipe 和 Microsoft 的 PipeDream 本身已经是很优秀的产品，它是深度学习开发人员可用的两种最具创造性的分布式训练方法。

推荐内容

微软和谷歌的分布式深度学习框架哪个厉害 厉害在哪

广州推出705套剩余经适房 资格复核完成后可预约看房

2020年秋粮收购价格 2020年秋粮生产情况分析

国家统计局：10月份全国工业生产者出厂价格同比下降2.1%

四川怡和曾经的辉煌败于高利贷 起拍价逾7亿

毕业求职屡屡遭拒 给其他残疾人一个机会一起圆梦

深圳市首批面向个人的汽车补贴即将发放 为新能源汽车市场注入强劲动力

北沿江高铁开工 沿途经过多个城市

掌握宝洁八大问的技巧 就相当于看到了offer在向你招手

全面取消集中认证！湖南省养老金身份认证7种方式任君选择！

威海车辆违章查询官网 线上查询不排队！

你知道惠州违章查询怎么查吗？线上查询超方便！

事业单位工资改革明确！你是这几种职业吗？

房企发债融资依然活跃 境内发债融资逾千亿元

坚决说“不” 不能因为贪图一时的小利而放弃参加社保的权利

40余企业完成20万公里测试 高级别自动驾驶加速落地亦庄

iPhone12上市一周 二手价格比原价低多少?

人工智能展现了相当程度的超越性 我们该为此担忧吗？

文理法医学科俱全的大学 同专业学生住在一起真的好吗?

农村乱占耕地建房实施八不准实行“零容忍”

想招收一些待业青年 做土楼营造技艺传承人

1至9月全国城镇新增就业898万人 接近完成全年目标任务

第三批国采11月落地 带量采购下药企销售模式转型

汽车行业正面临着两种被颠覆的现实可能

股权占比低出售难 民生人寿二股东部分股权八折出售无人问津

41城开通轨道交通线路 四季度还将新增两个城市

志高空调持续亏损 市场份额缩水二三线品牌营收惨淡

转债获游资热炒 多只转债基金收益率超20%

居民对稳定理财需求不断提升 固收+基金有望继续扩容

加快融入长三角一体化 安徽将加大对科技创新重点领域金融支持

9月规上工业增加值同比增长6.9% 采矿业增加值同比增长2.2%

中国利率市场化没有完成 利率体系和名义GDP之间存在缺口

1-9月邮政行业业务收入7816.9亿 同比增长13.6%

统计局发布前三季度国民经济运行情况 经济增长由负转正

三季度我国GDP同比增长4.9% 9月份各单项数据基本上强于市场预期

近半数A股银行股收跌 短期内出现一定回调是正常现象

未来五年 我们将会进入‘新出行时代’

创新金融产品 解决小微企业金融产品针对性不足的问题

前三季度经济增速由降转升 经济运行持续稳定恢复

多因素推升“金九”车市 新能源市场迎强势回暖

国庆楼市冷热不均 房企推货忙

新能源汽车彻底“炸了” 板块暴涨

年末基金抱团股波动加大 重仓基金很受伤

上市公司三季报披露大幕已经拉开：三公司获明星基金加仓

DRG先行区为全国医院DRG改革趟出一条创新之路

新日恒力(600165)急速拉升0.53元，涨幅7.66%

客户投保九天后出车祸去世 光大永明败诉被判赔百万

长春数字经济进入高速发展阶段

9月末对实体经济发放的人民币贷款余额占同期社会融资规模存量的60.1%

吉利汽车为何能够在科创板拔得头筹？

微软和谷歌的分布式深度学习框架哪个厉害厉害在哪

广州推出705套剩余经适房资格复核完成后可预约看房

四川怡和曾经的辉煌败于高利贷起拍价逾7亿

毕业求职屡屡遭拒给其他残疾人一个机会一起圆梦

深圳市首批面向个人的汽车补贴即将发放为新能源汽车市场注入强劲动力

北沿江高铁开工沿途经过多个城市

掌握宝洁八大问的技巧就相当于看到了offer在向你招手

威海车辆违章查询官网线上查询不排队！

房企发债融资依然活跃境内发债融资逾千亿元

40余企业完成20万公里测试高级别自动驾驶加速落地亦庄

iPhone12上市一周二手价格比原价低多少?

人工智能展现了相当程度的超越性我们该为此担忧吗？

文理法医学科俱全的大学同专业学生住在一起真的好吗?

想招收一些待业青年做土楼营造技艺传承人

1至9月全国城镇新增就业898万人接近完成全年目标任务

第三批国采11月落地带量采购下药企销售模式转型

股权占比低出售难民生人寿二股东部分股权八折出售无人问津

41城开通轨道交通线路四季度还将新增两个城市

志高空调持续亏损市场份额缩水二三线品牌营收惨淡

转债获游资热炒多只转债基金收益率超20%

居民对稳定理财需求不断提升固收+基金有望继续扩容

加快融入长三角一体化安徽将加大对科技创新重点领域金融支持

中国利率市场化没有完成利率体系和名义GDP之间存在缺口

1-9月邮政行业业务收入7816.9亿同比增长13.6%

统计局发布前三季度国民经济运行情况经济增长由负转正

近半数A股银行股收跌短期内出现一定回调是正常现象

未来五年我们将会进入‘新出行时代’

创新金融产品解决小微企业金融产品针对性不足的问题

前三季度经济增速由降转升经济运行持续稳定恢复

多因素推升“金九”车市新能源市场迎强势回暖

国庆楼市冷热不均房企推货忙

年末基金抱团股波动加大重仓基金很受伤

客户投保九天后出车祸去世光大永明败诉被判赔百万