万年历 购物 网址 日历 小说 | 三峰软件 天天财富 小游戏 视频推荐 小游戏
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页  日历2023  日历2024  日历2025  日历知识  | 每日头条  视频推荐  数码知识 两性话题 情感天地 心理咨询 旅游天地 | 明星娱乐 电视剧  职场天地  体育  娱乐 
日历软件  煮酒论史  历史 中国历史 世界历史 春秋战国 三国 唐朝 宋朝 明朝 清朝 哲学 厚黑学 心理学 | 文库大全  文库分类 
电影票房 娱乐圈 娱乐 弱智 火研 中华城市 仙家 六爻 佛门 风水 钓鱼 双色球 戒色 航空母舰 网球 乒乓球 足球 nba 象棋 体操
    

河南鹅毛大雪满天飞 积雪脚脖子深:专家提醒安全出行

 

 河南鹅毛大雪满天飞 积雪脚脖子深:专家提醒安全出行

大型语言模型在训练和推断中越来越依赖于分布式技术。这些技术需要在设备之间进行通信,随着设备数量的增加,这可能会降低扩展效率。虽然一些分布式技术可以重叠,从而隐藏独立计算的通信,但类似张量并行(TP)的技术固有地将通信与模型执行串行化。隐藏这种串行化通信的一种方法是以细粒度的方式将其与生产者操作(通信数据的产生)交错在一起。然而,在软件中实现这种细粒度的通信和计算交错可能很困难。此外,与任何并发执行一样,它需要在计算和通信之间共享计算和内存资源,导致资源争用,从而降低了重叠效率。为了克服这些挑战,我们提出了T3,它应用硬件-软件共同设计,透明地重叠串行通信,同时最小化与计算的资源争用。T3通过简单配置生产者的输出地址空间,透明地融合了生产者操作和随后的通信,需要进行轻微的软件更改。在硬件层面,T3添加了轻量级的跟踪和触发机制,以编排生产者的计算和通信。它进一步利用增强计算的存储器来进行通信的相关计算。因此,T3减少了资源争用,并有效地将串行通信与计算重叠。对于重要的Transformer模型,如T-NLG,T3将通信密集型子层的速度提高了30%的几何平均值(最大47%),并将数据移动减少了22%的几何平均值(最大36%)。此外,随着模型的扩展,T3的好处仍然存在:对于sim500亿参数模型的子层,几何平均值为29%,PALM和MT-NLG。


https://www.chinaz.com/2024/0201/1594683.shtml
  更新: 2024-2-1 9:48:46