X
鼓楼区
台江区
仓山区
晋安区
马尾区
长乐区
福清市
闽侯县
连江县
永泰县
闽清县
罗源县
思明区
湖里区
集美区
海沧区
同安区
翔安区
芗城区
龙文区
龙海区
漳浦县
云霄县
诏安县
东山县
平和县
南靖县
长泰区
华安县
鲤城区
丰泽区
洛江区
泉港区
石狮市
晋江市
南安市
惠安县
安溪县
永春县
德化县
金门县
三元区
永安市
明溪县
清流县
宁化县
建宁县
泰宁县
将乐县
沙县区
尤溪县
大田县
仙游县
荔城区
城厢区
涵江区
秀屿区
延平区
建阳区
邵武市
武夷山市
建瓯市
顺昌县
浦城县
光泽县
松溪县
政和县
新罗区
永定区
上杭县
武平县
长汀县
连城县
漳平市
蕉城区
福安市
福鼎市
霞浦县
寿宁县
周宁县
柘荣县
古田县
屏南县
相关链接
中国移动研究院段晓东:构建超万卡新型智算集群需要科学技术的创新突破 _ 信息化动态 _ 福建省经济信息中心
中国移动研究院段晓东:构建超万卡新型智算集群需要科学技术的创新突破
来源:中国移动研究院 时间:2024-06-03 16:33 浏览量:395

  5月16日,中国移动研究院副院长段晓东受邀参加2024世界电信日和信息社会日大会“智算融合创新发展论坛”,发表《大规模超万卡新型智算集群的思考与展望》主题演讲。

  段晓东表示,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

  段晓东在演讲中提到,当前大算力仍然是大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。然而在国外高端芯片断供的背景下,构建基于国产生态体系、技术领先的超万卡集群将面临诸多挑战,包括极致算力使用效率的挑战、海量数据处理能力的挑战、超大互联规模的挑战、集群高可用易运维的挑战以及高能耗高密度机房设计的挑战。

  为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和芯合算力原生等原创技术,攻关智算中心ScaleOut网络和ScaleUp互联问题,解决跨架构迁移和混合分布式训练难题。同时,为了解决因机房、供电、散热等因素限制单体智算中心规模的问题,中国移动正在着力研究跨集群分布式训练场景,通过在模型算法、平台调度、传输承载等不同层级的协同优化,解决大模型长距离分布式训练的难题。

  段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共同实现国产智算设施的又一次跨越式发展。

扫一扫在手机上查看当前页面