韦乐平：跨域训练是超大模型训练的必然趋势 _ 信息化动态

韦乐平：跨域训练是超大模型训练的必然趋势

来源：通信世界网时间：2025-05-09 11:11

　　4月23日，在2025云网智联大会上，SNAI推委会荣誉主席，原中国电信科技委主任韦乐平分享了大模型驱动下智算网的发展趋势。谈及大模型训练智算拉远的市场需求，韦乐平认为，一方面，应以网补算，提升闲散智算中心算力资源利用率；另一方面，迈向未来，跨域训练是必然趋势。

　　具体来看，面对大批分散部署、利用率很低的小规模智算中心，如果能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练，有望大幅提升闲散智算资源的利用率。

　　按照统计，大模型参数每1～2年增长10倍，而对应的GPU芯片的算力仅增长2～4倍，远低于模型规模的增速。随着模型规模的日益扩大，单体的算力、电力、空间资源终将受限。

　　对此，韦乐平认为，未来可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池，进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关，更需要跨域实施。

　　韦乐平提醒，面向复杂的商用场景，行业还面临大量不同功能、性能的异构GPU，规模不同的AIDC的互联，不同业务场景，不同设备和不同组网方式，不同模型和不同参数的协同挑战。

　　在技术挑战方面，韦乐平认为，存在带宽收敛问题。无收敛带宽普适性和前瞻性好，部署快，但成本太高；收敛比达到4～8时，带宽成本可以降至10%之内，但是只适用特定业务场景下的特定模型拆分方式，缺乏普适性和前瞻性。在功能和性能问题上，智算拉远后必然需要面对丢包、抖动乃至中断故障等诸多挑战，因此对ROCE网络的功能和性能要求也更为严格。

　　此外，行业还存在统一管理和运维的挑战。“现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心，需要对现有管理运维体系、生产流程、监控管理平台改造升级。”韦乐平讲道。

附件下载

扫一扫在手机上查看当前页面