用户名 密码 立即注册
设为首页收藏本站
搜索
第一家电网 门户 要闻 查看内容

摩尔线程为大规模AI训练提供稳定保障

2025-8-1 11:27| 发布者: admin| 查看: 34292| 评论: 0|原作者: 姬晓婷|来自: 中国电子报

摘要: 7月25日,摩尔线程在世界人工智能大会(WAIC 2025)开幕前夕举行技术分享会。会上,摩尔线程创始人兼CEO张建中表示,将以系统级技术创新与工程化能力打造用于生产智能的“AI工厂”。在他看来,“AI工厂”,如同芯片晶 ...
  何以实现高效节点、集群算力?

  软件生态被视为芯片企业的“护城河”。摩尔线程着力建设的MUSA软件栈正成为其全功能GPU性能发挥的有力支撑。

  基于推理场景对Kernel延时敏感的现状,MUSA的驱动和运行时库,能够帮助用户实现Kernel launch开销缩减:通过软硬协同,核函数启动延迟降低至业界平均水平的50%;近千次的计算和通信任务下发开销,由近千次优化为单次,GPU等待时间大大缩减;借助引擎间依赖解析技术,任务流之间的依赖解析延时可大幅降低至1.5μs,优于业界头部算力卡。

为大规模AI训练提供稳定了保障
  算子库的效率直接关乎分布式集群的训练效率。

  当前,MUSA能够提供三大算子库:极致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine开源推理算子库。

  其中,muDNN是一款极致性能的开箱即用标准算子库,完整覆盖常见的前向和反向算子。能够支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神经网络算子操作。当前,业内算子矩阵乘法的效率大部分可以做到90%以上,摩尔线程muDNN矩阵乘法算子效率可达到98%。国际一流厂商Flash Attention算子效率约为75%,而muDNN的Flash Attention能够达到95%。

  MUTLASS高性能的线性代数模板库,可极大降低在MUSA环境中自定义算子的开发工作量,相当于提供了一个可供二次开发的模板。当前MUTLASS已在Github上开源,支持平湖架构所有特性,同时提供高性能矩阵乘法、卷积算子实现,在Kernel中调用模板库就可以进行二次开发。

  此外,摩尔线程即将发布的面向大语言模型的开源推理算子库MUSA AI Tensor Engine,能够帮助开发者快速搭建自定义推理引擎。该算子库提供用户友好的Python API,进一步降低开发者使用门槛,只要会Python就可以调用。

  大模型训练动辄需要调动几千张甚至几万张算力卡资源。要实现模型的高效训练,不仅单卡性能要高,还需要有强大的集群管理和调度能力。

  摩尔线程自研的夸娥(KUAE)计算集群,集成了计算集群、软件平台、管理系统、优化系统以及维护和服务等一系列流程。整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构;支持端到端的模型训练,能够实现对混合专家模型、自动驾驶模型、视频生成模型、具身智能模型等多种类模型的全面支持。

  在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力,甚至会导致训练团队几个月的努力付诸东流。

  为此,摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,将异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定了保障。

鲜花

握手

雷人

路过

鸡蛋
合作伙伴
友情链接
网站简介| 新闻中心| 版权声明| 合作咨询| 我要投稿| 免责声明| 招聘启事| 联系我们| 隐私保护
总机:010-63510912; 咨询热线:13401051135; 客服QQ:1900713212
版权所有 第一家电网 工业和信息化部备案/许可证编号: 京ICP备12019733号-1

Archiver| Comsenz Inc.   

GMT+8, 2025-8-2 16:07 , Processed in 0.029198 second(s), 16 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部