今日关注:微软推ZeRO++新系统:减少大模型训练时间和成本
【资料图】
微软研究人员推出了名为ZeRO++的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。
ZeRO++ 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。
ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO++通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。
为了减少参数通信量,ZeRO++对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO++通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO++引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。
这些通信优化大大减少了通信量。与ZeRO相比,ZeRO++实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO++实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。
ZeRO++不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO++与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。
DeepSpeed已经发布了ZeRO++,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。
来源:站长之家
标签:
-
今日关注:微软推ZeRO++新系统:减少大模型训练时间和成本
-
外观优雅 内饰惊艳,长安启源A07官方美图正式发布|全球报资讯
-
无病而呻的意思是什么_无病而呻的意思
-
“十四五”全国新增建设用地压减约300万亩按照每五年逐步递减趋势管控新增建设用地 世界快资讯
-
江苏南通:绿色防控唱主角 打好生态保卫战 天天精选
-
天天最新:盘点表怎么算差异_盘点表模板
-
环球速讯:6月27日擒牛姐盘中提示
-
【全球时快讯】美国目前服务业增长放缓 黄金进入震荡循环
-
批量配套微宏快充电池系统的纯电宽体自卸车交付北川中联水泥 通讯
-
【天天热闻】氢能与锂电池 谁会先实现闭环?
-
世界观焦点:赣锋锂业:6月26日融资买入6142.83万元,融资融券余额45.96亿元
-
仅两根手指写字,江苏启东“轮椅男孩”高考632分
-
刚刚!西安地铁:16号线一期、2号线二期开通!大西安“西轴线”正式呈现!
-
浦口区顺利举办农机“安全生产月”暨“安全宣传咨询日”活动|焦点信息
-
全球最新:【寻味中华丨饮食】敦煌李广杏:念念不忘的夏至味道
-
京津冀等地高温再发展局地或达40℃ 强降雨重点影响长江以北 全球快报
-
易能时代苏昕:未来三五年充电模块市场将整合,坚持以技术创新打造竞争力|当前信息
-
红旗E-QM5 560KM PLUS全新续航版本上市,带来最强“航价比”
-
2023年贵阳中考成绩查询(时间+入口) 全球消息
-
全球讯息:国内多地发现猴痘病毒感染病例 市疾控中心召开媒体通气会