首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

2024-07-04 阅读 51 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

国产GPU万卡集群，是怎么“炼”成的？

在回答怎么“炼”之前，必须要确认的一点便是目标——什么样的万卡集群才算是好用的。

对此，张建中基于刚才种种的现状分析，给出了一个符合当下算力需求的“好用公式”：

好用=规模够大+计算通用+生态兼容

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

而这也正是最新夸娥（KUAE）万卡集群所具备的五大特点。

展开来看，首先便是万卡万P的超大算力。

具体而言，升级后的夸娥（KUAE）已经实现了单集群规模超万卡，浮点运算能力达到10Exa-Flops。

与此同时，在GPU显存和传输带宽方面，显存容量达到了PB级，卡间互联总带宽和节点互联总带宽同样也达到了PB级，实现算力、显存和带宽的系统性协同优化，全面提升集群计算性能。

在大算力之后，便来到了好用的第二个关键因素——有效计算效率（MFU）。

MFU作为衡量大型模型训练效率的标准指标，能够直观地反映整个集群训练过程的效率。

夸娥（KUAE）万卡集群通过在系统软件、框架和算法等多个层面进行深入优化，可以成功实现对大型模型的高效训练，MFU值最高可达60%。

具体来说，在系统软件层面，通过采用计算与通信效率的极致优化技术，显著提升了集群的执行效率和性能。

在框架和算法层面，该集群能够支持多种自适应的混合并行策略和高效的显存优化技术，能够根据具体的应用需求自动选择并配置最佳的并行策略，从而显著提高训练效率和显存的利用率。

此外，针对处理超长序列的大型模型，夸娥（KUAE）万卡集群利用CP并行技术和环形注意力机制等优化手段，有效减少了计算时间和显存使用，进一步提升了集群的训练效率。

对于一个好用的集群而言，稳定性是最不可忽视的。

在这方面，正如刚才我们提到的，夸娥（KUAE）万卡集群平均无故障运行时间可超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率目标为99%。

之所以把目标定得那么高，得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：

软硬件故障的自动定位与诊断预测实现分钟级的故障定位

Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复

高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度等

至于最后一个最重要的保障，就在于通用性和生态友好。

据了解，夸娥（KUAE）万卡集群专为通用计算场景量身定制，能够为LLM、MoE、多模态和Mamba等多样化的架构和模态的大型模型提供加速支持。

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

此外，这个集群还采用了高效且用户友好的MUSA编程语言，并且完全兼容CUDA，配合自动化迁移工具Musify，能够实现新模型的即时”Day0”级迁移，确保了生态系统的即时适配性，从而帮助客户迅速部署其业务。

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

不过有一说一，虽然摩尔线程已经解锁了万卡集群这一大关，但这个过程并非是将GPU堆叠这么简单，用张建中的话来说就是：

虽然从千卡到万卡在数字上只是多了一个0，但难度上了却增加了一个指数级，比攀登喜马拉雅山都难。

例如，单是在超大规模组网互联这个问题上，超万卡集群网络便会涉及参数面网络、数据面网络、业务面网络、管理面网络等。

不同的网络需要采取不同的组网部署方式，其中，超万卡集群对参数面网络方面的要求是最高。

再如集群有效计算效率方面，大量实践表明，集群规模的线性提升无法直接带来集群有效算力的线性提升，受限于芯片计算性能（芯片及算子使用效率）、GPU显存的访问性能（内存和I/O访问瓶颈）、卡间互联带宽、有效的分布式并行策略等，集群有效计算。

除此之外，还会涉及训练高稳定与高可用、故障快速定位与可诊断工具、生态快速迁移、未来场景通用计算等种种问题。

总而言之，是有一种牵一发而动全身的感觉。

这就不免让人发出疑问：摩尔线程为什么非要啃下这块硬骨头？

万卡很难，但也很必要

千卡集群，不够用，根本不够用。

没错，这正是当下随着大模型以“AI一日，人间一年”的速度迭代更新之下，算力所面临的最根本问题。

也正因如此，主流的大模型玩家基本上都是配备了万卡集群，例如：

OpenAI：单集群GPU数量50000+

谷歌：单集群GPU数量25000+

Meta：单集群GPU数量24500+

字节跳动：单集群GPU数量12888

……

而大模型玩家们要想保持在业界的领先性，那么自家的大模型的更新迭代的速度就不能太慢，两周更新一次似乎也是成为了当下的常态。

因此，摩尔线程要做的事情，就是用万卡集群、全栈方式，打造一个大模型训练超级加工厂，可以在算力上匹配当下大模型如此快速更迭的速度。

所以摩尔线程为什么要啃下这块硬骨头，就不难理解了。

那么随之而来的另一个问题便是：为什么摩尔线程能够做到？

其实这并非是一蹴而就的事情。

其实早在2022年的时候，团队便已经设定了建集群的大方向与策略，这是因为当时A100算力也是处于紧缺的状态，国内市场急需能够替代它的产品。

从GPU功能情况来看，摩尔线程是在唯一可以从功能上对标英伟达的国产GPU企业。

随着2023年大模型的火爆，这种GPU集群式的方向就显得更加正确，毕竟黄仁勋在发布B200之际就表示“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU”。

而摩尔线程更是为此狠狠做了一番准备，所以现在看来，摩尔线程当时的策略和决定，确实是具备前瞻性的。

那么最后的最后，便是市场认可度的问题了，对此，在这次活动中的一张图便可以解释一切：

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

总而言之，细数摩尔线程在走来的这一路，似乎总是前瞻性地、开创性地推动着国产GPU的发展；而这一次，也是毫不意外地再拿下“国内首个”的头衔。

至于这个新升级的万卡方案是否能把握住高端算力的空窗期，答案就交给市场来回答了。

文章来源于：微信公众号量子位

上海WAIC大会现场“大闹天宫”：模型够猛，产品够酷，公司够强

关联网址

关联标签

#AI #国产GPU #大模型 #摩尔线程

文章目录

当前文章暂无目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

306 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

271 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

251 用户在看

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

国产GPU万卡集群，是怎么“炼”成的？

万卡很难，但也很必要

上海WAIC大会现场“大闹天宫”：模型够猛，产品够酷，公司够强

教育科技风向标！猿力科技亮相WAIC 2024，自研教育大模型全面产品化落地

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

306 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

271 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

251 用户在看

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

国产GPU万卡集群，是怎么“炼”成的？

万卡很难，但也很必要

上海WAIC大会现场“大闹天宫”：模型够猛，产品够酷，公司够强

教育科技风向标！猿力科技亮相WAIC 2024，自研教育大模型全面产品化落地

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿