国内运营商最大单集群智算中心出圈,按下国产算力加速度
来源:通信世界全媒体 时间:2024-09-10 08:29

  算力正如水、电一般,正在逐日成为现代社会赖以生存的重要基础资源。全国各地都在紧锣密鼓地“上马”各种智算项目,算力不仅是新质生产力发展的关键抓手,又是各地方招商引资的有力手段。

  然而,算力利用率低、东西供需不平衡、国产化算力不足等成为目前我国算力高质量发展面临的窘境。当下,大模型产业井喷式发展再度加剧了智能算力紧张的局面。近日,中国移动智算中心(哈尔滨)(以下简称哈尔滨智算中心)建设完成并投产使用为打破以上困境带来了新的解题思路。

  万卡集群:智算新标杆让算力迈上新台阶

  据不完全统计,截至今年6月,各地方政府参与建设并已投产的智算中心数量已接近百个。

  与其他不同的是,近日建设完成并正式投产使用的国内运营商最大单集群智算中心——哈尔滨智算中心,更将“大”表现的淋漓尽致。

  “单集群拥有超过1.8万卡的丰富资源,可提供6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。”该智算中心具有单集群算力规模最大、国产化网络设备组网规模最大等特点,技术领先、自主可控,可为万亿级大模型训练提供高效、稳定、安全可控的算力底座。

  通俗地说,单集群智算中心,就是把所有AI加速卡打造成1个集群,用以支持千万亿级参数的大模型进行训练。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,使其在瞬息之间便能处理海量数据与复杂计算任务。

  哈尔滨智算中心可有效提升区域乃至全国的算力服务水平。在此之前,智算规模大多在一万卡以下,对于千亿或者万亿模型训练来说,仍会在一定程度上受限于底层的算力资源。哈尔滨1.8万卡集群的建成和投入,将更有利于模型团队充分利用底层资源,通过并行度更高的训练策略,加快模型训练进度。大规模智算落地绝非简单的规模数量堆叠,其复杂程度呈指数级增加,对智算建设运营者的技术实力、资源优势、产业协同能力有着很高的要求,中国移动做到了。

  不仅如此,面对大规模万卡集群建设的严峻技术挑战,中国移动研究院作为中国移动的技术创新中坚力量,为哈尔滨智算中心建设提出了一系列突破性和创新性的技术方案,围绕“新互联、新算效、新存储、新平台、新节能”五大创新技术领域展开了系统性重构,并制定了《中国移动NICC新型智算中心技术体系》。哈尔滨万卡集群是业内首个大规模应用融合存储的集群,也是首个落地中国移动原创智算网络全调度以太网(GSE1.0)的万卡集群,并应用中国移动自研“AUTO行云”算网基础设施自动化平台实现万卡集群自动化验收的全量设备覆盖。这充分彰显出中国移动在科技创新的研发实力和技术优势。

  中国速度:两个“100天”,AUTO挑战极限助力验收

  通常IDC数据中心规划到投产所需的时间受多种因素影响,会有较大差异,一般来说可能需要1-3年左右。哈尔滨智算中心从2024年3月规划到2024年9月投产交付,仅用了两个“100天”,建成交付,创下IDC建设新的“中国速度”。

  要知道,在哈尔滨智算集群建设过程中,智算基础设施不仅要满足上层大模型业务的极致运行和性能要求,还要面临万卡、国产化等规模和生态的多重挑战,亟待在智算基础设施硬件及网络层面保证建设、交付、运维各阶段保障效率和质量的“双达标”。“AUTO行云”平台在哈尔滨智算中心建设验收过程中,为智算基础设施高质量交付“严把关”,保障后续大模型的稳定运行。

  “AUTO行云”是中国移动研究院自主研发、致力于提升算网基础设施集成验证交付效率和质量的自动化平台。前期AUTOBOX承载的都是千卡集群,哈尔滨智算中心是AUTO验收的第一个万卡集群。

  据了解,哈尔滨1.8万卡超大规模智算集群中,一轮自动化测试覆盖总计约25万个测试用例,涉及6000多台各类服务器和交换机设备,以及近7万多条网络连线,无论从规模数量、设备多样性、配置参数、建设进度等都是一项巨大、复杂的系统工程。但凭借AUTO工具的优越性能以及AUTO团队的丰富经验,在哈尔滨1.8万卡超大规模智算集群中,2小时内即可对所有设备和网络连线进行一轮自动化全量检查,对智算中心高质量、高效率交付发挥了非常关键的作用。AUTO工具的应用使得验收效率整体提升73%,进一步节省智算集群的上线时间、耗电、人工等多项成本。

  如果说哈尔滨智算中心刷新了业界AI大模型训练集群的规模,那么AUTO无疑是其高质量投产的关键助力。如果说,哈尔滨智算中心为我国智算基础设施建设树立了新的标杆,那么AUTO在哈尔滨智算中心建设快速投运这场战役中可谓功不可没。

  创新突破:算力国产化跑出加速度

  从规模“大”到建投速度“快”,哈尔滨智算中心让外界看到更多是中国移动的技术硬实力。

  但万卡集群的构建并非简单的GPU卡堆叠,而是一项高度复杂的超级系统工程。从全调度以太网技术的首次成功应用再到融合存储技术的大胆引入,哈尔滨智算中心建设的背后技术离不开一个“新”。

  哈尔滨万卡集群中使用的国产化融合存储技术是业内首个大规模应用融合存储的集群。融合存储技术不仅节省了大量存储容量,还巧妙避免了数据在不同存储系统之间的无效流转,使大模型训练效率提升可达星期级。

  全调度以太网(GSE)技术方案打破了西方科技巨头垄断,通过创新算网协同的负载均衡技术和端网协同的拥塞控制技术,实现网络互联的升级,为智算中心提供高性能的连接网络,将训练过程通信时间占比缩短20%以上,达到国际领先水平。

  同时,中国移动智算中心(哈尔滨)AI芯片国产化率100%,首次通过国产网络设备探索1.8万张智算卡单集群部署规模上限。中国移动研究院积极主动地推动国产GPU在智算中心的广泛应用,有力证明了国产GPU同样能够建设高效的超万卡集群。他们以强烈的央企责任担当,以创新架构、系统集群、绿色低碳为关键战略支点,全力推动培育形成国产人工智能算力产业生态,成功实现多家国产化智能算力芯片落地与实际应用,为国产算力的蓬勃发展搭建了广阔舞台。

  算力是生产力,也是创新力。当前,国产算力已经觉醒,但国产算力的崛起,拼的不止是AI芯片,还要围绕计算、网络、存储等关键环节,汇聚科技力量,提升自主创新能力,加大研发投入,实现高端芯片、新型数据中心、超算等领域的研发突破,推动算力产业高质量发展。

  哈尔滨智算中心的建成投产,不仅在规模上达到了新的高度,为大模型训练提供了强大的算力支持,更在建设速度、技术创新、国产化应用等方面树立了标杆。展望未来,中国移动将继续发挥创新主体和产业引领作用,为超十万卡集群的创新突破做好技术储备,与合作伙伴共同实现国产智算设施的跨越式发展。

附件下载

扫一扫在手机上查看当前页面

相关链接