X
鼓楼区
台江区
仓山区
晋安区
马尾区
长乐区
福清市
闽侯县
连江县
永泰县
闽清县
罗源县
思明区
湖里区
集美区
海沧区
同安区
翔安区
芗城区
龙文区
龙海区
漳浦县
云霄县
诏安县
东山县
平和县
南靖县
长泰区
华安县
鲤城区
丰泽区
洛江区
泉港区
石狮市
晋江市
南安市
惠安县
安溪县
永春县
德化县
金门县
三元区
永安市
明溪县
清流县
宁化县
建宁县
泰宁县
将乐县
沙县区
尤溪县
大田县
仙游县
荔城区
城厢区
涵江区
秀屿区
延平区
建阳区
邵武市
武夷山市
建瓯市
顺昌县
浦城县
光泽县
松溪县
政和县
新罗区
永定区
上杭县
武平县
长汀县
连城县
漳平市
蕉城区
福安市
福鼎市
霞浦县
寿宁县
周宁县
柘荣县
古田县
屏南县
相关链接
韦乐平:跨域训练是超大模型训练的必然趋势 _ 信息化动态 _ 福建省经济信息中心
韦乐平:跨域训练是超大模型训练的必然趋势
来源:通信世界网 时间:2025-05-09 11:11 浏览量:

  4月23日,在2025云网智联大会上,SNAI推委会荣誉主席,原中国电信科技委主任韦乐平分享了大模型驱动下智算网的发展趋势。谈及大模型训练智算拉远的市场需求,韦乐平认为,一方面,应以网补算,提升闲散智算中心算力资源利用率;另一方面,迈向未来,跨域训练是必然趋势。

  具体来看,面对大批分散部署、利用率很低的小规模智算中心,如果能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。

  按照统计,大模型参数每1~2年增长10倍,而对应的GPU芯片的算力仅增长2~4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限。

  对此,韦乐平认为,未来可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关,更需要跨域实施。

  韦乐平提醒,面向复杂的商用场景,行业还面临大量不同功能、性能的异构GPU,规模不同的AIDC的互联,不同业务场景,不同设备和不同组网方式,不同模型和不同参数的协同挑战。

  在技术挑战方面,韦乐平认为,存在带宽收敛问题。无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比达到4~8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性。在功能和性能问题上,智算拉远后必然需要面对丢包、抖动乃至中断故障等诸多挑战,因此对ROCE网络的功能和性能要求也更为严格。

  此外,行业还存在统一管理和运维的挑战。“现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。”韦乐平讲道。

扫一扫在手机上查看当前页面