计算机行业AIGC系列之二十:通信网络延续基础算力的摩尔定律? 天天快播
结论
在AI领域,网络的价值在于延续了集群算力的摩尔定律。
1)吞吐带宽与连接架构是算力性能不可忽视的决定因素。
【资料图】
2)芯片层面,高速c2c连接方案(如NVLink、CXL等)的推广,是宏观设备/数据中心层高速网络、光网络等需求爆发的底层逻辑。
3)设备层面,单SoC性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提升;而Nvidia、Google、AMD、AWS等算力大厂正应用InfiniBand、OCS等新架构替代通用算力下的以太网,带来增量网络需求。
原因及逻辑
系统复杂度、投资强度、整体性能提升效果三方面看,网络设备与器件(包括交换机、光模块等)在AI系统中的重要性显著提升:Nvidia H100到GH200系统,官方标准配置下800G光模块用量可提升30%-275%,同样256GPU集群的交换机需求从不足50台提升至150台以上。
谷歌自研TPU v4背后,是矩阵计算、OCS光交换与更激进的光网络设计。3D组网是TPU v4系统最大亮点,网络起重要作用,导入全光交换、WDM等光通信技术后,算力与网络需求同步提升。
AMD最新MI300体系和AWS自研Trn训练芯片,同样重视带宽、拓展性的价值。
有别于大众的认识
1)当前市场对AI算力、网络、光通信空间的跟踪,主要通过订单预期、需求意向或历史经验的方式直接判断。我们认为,除了对硬件进行拆解、进而直接测算单位算力/单位芯片对应的网络需求之外,网络架构本身对算力体系的深远影响也应重视,通信网络正在延续算力领域的摩尔定律,其价值不亚于算力本身。
2)当前市场担心,若假设算力需求总规模不变,则单位芯片或系统性能的大幅提升会导致硬件需求数量的减少。实际上,芯片或系统性能的提升的背后,吞吐带宽与连接架构是不可忽视的关键因素,“网络与算力同行”。且在AI训练、推理需求提升的产业早期,性能成本的优化、架构方案的多样化均利于AI应用的放量,进而带动算力总需求持续提升。
风险提示
信息技术迭代产生新的网络通信方案,可能颠覆已有路径或格局。
标签: