国产算力如何突破大模型训练这道“天堑”？

　　华为缩小AI算力差距的策略，是一种典型的非对称竞争。它是特定历史时期和特定限制条件下的有效策略，为中国未来突破国产光刻机和更先进工艺制程的国产AI芯片，争取了宝贵的战略窗口

　　过去三年，中国、美国科技巨头的大模型，绝大部分是英伟达的AI芯片上训练出来的。国产选手和英伟达之间，隔着一道天堑。逻辑很简单，英伟达不仅单卡性能更强，软件生态也更完整。

　　美国政府一直在限制对中国出售先进AI芯片。今年4月，美国商务部已限制英伟达对华出售中国市场的H20芯片。而H20事实上已经是英伟达芯片的性能版。

　　中国大陆买家理论上已无法通过正常渠道获取英伟达的先进AI芯片。自主可控才能把命运掌握在自己手里。

　　昇腾910系列是中国企业使用最多的国产AI芯片，包括字节跳动、阿里、腾讯、百度、蚂蚁金服等大型科技企业都在使用昇腾910。

　　不过，过去三年，中国大部分科技大厂把昇腾910更多用在推理环节，而不是用作模型训练。

　　模型训练是个复杂的系统工程。一个基础大模型，通常在数万枚先进AI芯片（如英伟达GB200/H200/H100）组成的算力集群上，进行数周甚至数月的不间断训练。在万卡集群中，芯片、网络、软件随时可能故障。集群规模越大，故障概率就越高。一旦故障，训练任务就会中断，不仅浪费时间，还浪费算力。

　　今年1月，某科技公司的一位战略规划人士透露，当时他们发现，昇腾910系列芯片单卡性能不够强，且存在软件生态不完善等问题。但英伟达的A800/H800/H20等芯片不断被限制出售后，用国产AI芯片训练大模型已被很多中国科技公司提上了议事日程。

　　此时，华为也取得了重要技术进展——用昇腾910训练出了1350亿参数的盘古Ultra和7180亿参数的盘古Ultra MoE。华为还用系统工程手段突破了昇腾910单卡性能相对不足的短板。

　　今年4月-5月，华为在预印本论文平台arXiv先后公布了两篇技术论文，分别介绍了如何使用昇腾910训练1350亿参数盘古Ultra Dense（可译为，稠密）模型、7180亿参数的盘古Ultra MoE（mixture of experts，可译为，稀疏或混合专家）模型。

　　今年4月，华为发布了CloudMatrix 384“超节点”（“超节点”指把数十枚、数百枚AI芯片互联）方案。它采取系统工程的策略，把384张昇腾910互联在一起。这个方案克服了单卡性能不足的问题，让整个系统性能更优。

　　包括华为云、计算产品线实验室、数通产品线、光产品线等团队都参与了“算力会战”。

　　华为通过跨部门作战的方式，把几十年积累的各种能力用于解决散热、供电、高速互联网、大芯片在板可靠性等工程问题。

　　昇腾芯片如何突破大模型训练这道难关？华为的两篇技术论文对此有非常详尽的解释。

　　其中名为《盘古Ultra：在昇腾NPU上突破高密度大语言模型的极限》的论文详细分析了，如何用8192枚昇腾910系列芯片训练1350亿参数盘古Ultra这一Dense模型。

　　训练盘古Ultra的难点之一是，盘古Ultra有94个网络层。这种深层稠密模型普遍训练不稳定，容易出现“损失尖峰”。这会对模型造成“不可逆的性能损害”。为此，华为技术团队通过“深度缩放三明治归一化”等算法，解决了训练稳定性问题。论文显示，盘古Ultra模型性能在基准测试中和GPT-4o-0513、Llama 405B等行业领先的Dense模型不相上下。

　　华为另一篇主题为《盘古Ultra MoE：如何在昇腾NPU上训练你的大模型》的论文讲述了，如何用6000多枚昇腾910系列芯片训练7180 亿参数的盘古Ultra MoE这款稀疏模型。

　　训练盘古Ultra MoE，要解决稀疏结构下，高效利用算力资源并减少通信开销的问题。为此，华为技术团队采用了模拟仿线“量身定做”了模型参数和模型结构。盘古Ultra MoE使用了256个专家模型平衡性能、效率。专家调度、通信开销和负载均衡等系统问题最终也被攻克，这取得了不错的效果。在基准测试中，盘古Ultra MoE与行业领先的稀疏模型DeepSeek-R1性能相当。

　　（华为两篇技术论文，分别讲述了如何在昇腾910系列芯片的集群上训练Dense模型和MoE模型图源/华为在arXiv上公布的预印本论文）

　　一位华为技术专家介绍，盘古Ultra和盘古Ultra MoE实现了长期稳定的训练。

　　对企业客户来说，昇腾910能做到稳定训练大模型还不算完全具备竞争力。它必须低成本、高效率才有实际意义——这需要关注MFU（模型算力利用率Model FLOPs Utilization）这个重要指标。

　　在大模型训练中，MFU是评估算力集群效率的重要指标。MFU越高，意味着芯片利用率越高、训练时间越短、训练总成本越低。

　　在训练盘古Ultra这款稠密模型时，8192枚昇腾910组成的算力集群，MFU超过50%。《财经》了解到，训练Dense模型的行业基准MFU通常是40%-50%，超过50%属于行业前列。

　　华为披露的最新数据显示，在训练盘古Ultra MoE这款稀疏模型时，6000多枚昇腾910芯片组成的算力集群，MFU达到41%。这远远高于行业平均水平。《财经》了解到，稀疏模型比稠密模型，参数更大调度更复杂，因此MFU相对更低。训练稀疏模型时，行业基准MFU通常是30%左右。

　　一位华为技术专家对《财经》表示，目前实验室内，盘古Ultra MoE的MFU达到了45%。盘古Ultra MoE的预训练尚未使用CloudMatrix 384。未来如果使用CloudMatrix 384训练大模型，MFU还将进一步提升。目前，有很多大型科技公司的客户对CloudMatrix 384感兴趣。

　　一位科技公司基础设施负责人2024年11月曾向《财经》介绍，在模型训练中的有效AI算力=单卡算力有效率×并行计算有效率×有效训练时间。极端情况下，模型训练过程中会浪费一半的算力资源。如何避免浪费是一个重要课题，算力效率越高，训练成本就越低。

　　昇腾910的集群目前可以实现稳定训练，且能相对低成本、高效率地训练大模型。那么，华为为何此时公布这些技术进展？

　　一位华为资深技术专家直言，以前大家选昇腾，并不是认为昇腾先进，只是因为美国断供而被迫使用。

　　但华为志不在此，更希望让行业了解昇腾的真实能力，也希望通过自身实力赢得客户。

　　目前，华为针对互联网行业和关键信息基础设施行业的客户，会派出中高级专家组成的“小巧灵突击队”，到一线现场支持客户用好昇腾。

　　据《财经》不完全统计，截至2025年6月11日，中国和美国参与模型竞争的10家科技公司（包括华为、字节跳动、阿里、腾讯、百度、

　　在2025年刚刚过去的162天内发布或迭代了至少23版大模型，平均每7天就会有一版新的大模型诞生。

　　英伟达的AI芯片，几乎每年都在迭代。英伟达2023年主力产品是A100，采用7纳米工艺制程；2024年主力产品是H100/H200，采用4纳米工艺制程；2025年主力产品是GB200，它由两枚B200串联成一块芯片，采用3纳米工艺制程。美国科技公司2025年初推出的大模型大多是在H100/H200集群上训练的，后续将在GB200集群上训练。

　　这意味着，后续训练大模型，需要更强、更多的芯片。昇腾910系列不可能原地踏步，它必须持续迭代，才能训练出更好的模型。

　　如果仅对比单卡性能，客观说，昇腾910目前和英伟达GB200等旗舰芯片存在较大差距。但是，华为正在采取系统工程手段突破算力集群的峰值性能，挖掘昇腾910系列芯片的潜力。

　　华为的策略是，避开单颗芯片的直接对抗，转而在系统架构层面，用超大规模集群的方式，实现系统总性能的赶超。

　　今年4月，华为发布的CloudMatrix 384，就是把384枚昇腾910芯片集成在16个机柜，再通过光缆构建高带宽、低时延的互连网络组成一个单位集群。好处是，这可以降低芯片并行计算的通信损耗，最终提升整体算力效率。CloudMatrix 384单位集群拓展到万卡时，它的性能损耗比传统的8卡、16卡服务器集群更小。

　　国际半导体和AI研究机构SemiAnalysis分析称，昇腾910单卡性能约为780 TFLOPS（每秒1万亿次浮点运算），英伟达GB200单卡性能约为2500 TFLOPS。昇腾单卡性能仅为英伟达的GB200的三分之一。但华为CloudMatrix 384集群性能是300 PFLOPS（每秒1000万亿次的浮点运算，PFLOPS是TFLOPS的1000倍），GB200 NVL72的集群性能是180 PFLOPS。华为CloudMatrix 384集群性能是英伟达GB200 NVL72的1.6倍。

　　一位华为云人士今年4月曾对《财经》表示，英伟达GB200 NVL72使用铜缆做连接，但华为CloudMatrix 384使用光缆做连接。光缆的缺陷是，安装、维护难度更高。但华为做通信多年，能做到低故障率。这带来的收益是，可以做到低时延、高带宽，压榨出更高的峰值性能。

　　这种大集群模式还突破了中国HBM（High Bandwidth Memory，高带宽内存）芯片性能更低的问题。去年12月，美国政府限制对中国出售高性能HBM芯片——这是先进AI芯片必不可少的零部件。中国后续无法获得更高性能的HBM芯片。HBM性能低，会让模型训练变得拥塞，训练时间变得更长。

　　但国际半导体和AI研究机构SemiAnalysis分析认为，CloudMatrix 384的芯片数量更多，集成的HBM个数也更多，因此拥有内存和带宽也更大。

　　英伟达创始人黄仁勋今年5月28日接受媒体采访时直言：“有很多基础事实表明，华为的技术可能与H200相当。”黄仁勋认为，向市场提供CloudMatrix 384系统证明华为的行动非常快，“这可以扩展到比我们最新一代Grace Blackwell（NVL72）更大的系统。华为不会坐以待毙，他们想方设法寻找竞争的路径。”

　　种种现实条件制约不少的限制下，华为的策略相对激进，核心是解决系统工程问题。

　　为解决网络问题，华为技术团队根据计算系统的需求重新定义了互联总线。为实现算力高效调度，就要用操作系统实现资源池化。为了让系统平稳工作，还需要有大动态的供电。384枚芯片在一起发热量巨大，则要使用散热效率更高的液冷技术。

　　一位华为资深技术人士介绍，训练大模型需要大系统。华为技术团队在计算、内存、通信、存储、散热、供电以及软件等方面投入大量精力进行优化，最终实现系统性能更优。华为几十年在ICT领域，尤其是硬件工程、基础软件积累很深，因此有能力把复杂系统做好。

　　上述华为资深技术人士解释，华为基于中国的现实情况，解决中国的现实问题。华为不简单追求单点技术的路线，

　　而是以面积换能力、以堆叠增容量、以集群扩规模，通过超节点的系统工程创新，实现规模算力的领先和效能的最优。

　　想要训练出更好的模型，芯片要迭代，软件生态也要不断完善——这样才能提升国产AI芯片的易用性。

　　软件生态一直被视为是昇腾910系列芯片的重要短板。这在2023年之前尤为明显，但在2024年-2025年，昇腾的软件生态已经有所好转。

　　所谓的软件生态，主要包括两大部分——芯片的开发工具栈（华为CANN、英伟达CUDA）、模型的深度学习框架（华为MindSpore、开源PyTorch/谷歌TensorFlow）。

　　华为的CANN、MindSpore起步相对更晚，它短时间内很难改变开发者长期形成的习惯。但积极信号是，一些弯道追赶的技术机会正在出现。

　　过去，AI模型的架构比较分散，技术路径不统一，各类算子有几万个，加上衍生的算子有十万以上。这对英伟达这种CUDA生态做了十几年的厂商来说并不难。开发者设计算子后，会第一时间适配英伟达的芯片。但对华为等后发芯片厂商来说，想让自家芯片支持所有主流模型，就必须开发、优化数万个算子。正常情况下，这几乎是不可能完成的任务。

　　2023年之后，各种各样的模型逐渐收敛到Transformer、Diffusion架构。以目前主流的GPT系列、Qwen系列、Llama系列、Deepseek-V3等模型为例，它们使用的核心算子大约只有几百个，这让后发芯片厂商有了缩小生态差距的机会。

　　一位资深算法工程师对《财经》解释，算子融合、淘汰性能不足的算子后，需要开发的算子数量的确在大幅减少。如今只需要专注开发有限的算子，适配工作量大大减轻。因此，生态差距有希望缩小。

　　一位华为资深技术人士介绍，华为已经开发补齐了高质量、高性能的基础算子，并把这些算子深度开放给客户。国内头部客户很快就适配了他们自己的模型和应用。

　　其次，AI代码生成技术正在普及。这也让后发芯片厂商有机会缩小软件生态的差距。

　　一种乐观设想是，如果AI代码生成工具能针对国产AI芯片自动优化算子，适配门槛将大幅降低。上述资深算法工程师解释，如果国产AI厂商能提供详尽的芯片架构文档和丰富的代码案例，为代码生成工具提供充足的背景信息，开发者未来或许可以借助AI让算子在不同芯片之间迁移，大幅减少开发工作量。届时，CUDA的软件生态壁垒可能会进一步削弱。

　　一位华为技术人士的看法是，“CANN+MindSpore”目前和“CUDA+PyTorch/TensorFlow”相比，的确历史积淀不足。但昇腾是开放的，CANN支持客户通过PyTorch/TensorFlow等主流框架使用昇腾。华为的MindSpore也在不断提升易用性，贴近开发者习惯。在他看来，国产AI芯片想提升竞争力，必须形成生态规模。为此，应该扶持主流的国产技术路线。

　　华为目前在采取务实的策略。一方面，持续打磨自家的MindSpore框架；另一方面，让 CANN兼容PyTorch/TensorFlow等主流框架，吸引开发者将大模型无缝迁移到昇腾硬件上，同时完善自己的软件生态。目前，昇腾支持开发者将在其他芯片上训练的大模型一键部署到昇腾上。

　　昇腾持续进步的同时，美国政府的芯片出口管制始终是中国AI产业头上的“达摩克利斯之剑”。这些威胁还在步步紧逼。

　　中美AI产业的战略博弈中，有一条主线——美国政府一直希望限制中国获取先进AI芯片，锁死中国的AI技术上限。具体管制手段包括不限于：

　　其一，禁止中国大陆采购最先进的AI芯片。美国商务部工业安全局限定了英伟达对中国市场出售AI芯片的性能上限，今年4月又限制英伟达对华出售“”的H20芯片。

　　其二，禁止荷兰ASML公司对华出售EUV（极紫外光刻）光刻机。中国半导体制造工艺暂时被限制在7纳米及以上水平，

　　然而，让国产AI芯片从能用变得好用，已经是中国产业界的共识。一位芯片技术人士今年4月末曾对《财经》表示，从拜登政府到特朗普政府，美国每一轮出口管制都在倒逼中国提升AI芯片的自研意志和自研能力。

　　如何让国产AI芯片从能用变得好用？系统工程和工艺制程，是两个重要方向。哪怕是英伟达，也是在两条腿走路。

　　对中国的有利之处是，近两年，半导体工艺提升带来的边际效应在衰减。随着晶体管尺寸逼近物理极限，提升工艺的难度、成本急剧增加，功耗、散热的挑战也在急剧提升。

　　以英伟达B200为例，它采用3纳米工艺，相比4纳米的H100，单颗GPU性能提升30%，功耗增加超过70%。英伟达的这一代产品在系统工程方向进行了大幅改进——英伟达的GB200 NVL72，就是把72枚GB200集成在一个机柜，做成一个超节点。从英伟达的产品演进来看，系统工程带来的性能提升，比改进芯片工艺制程更简单直接。

　　一位华为技术专家的看法是，短期内系统工程带来的提升的确更有效，这也是当前形势下华为优先努力的方向。

　　上述华为技术专家认为，从单芯片提升路径来看，从7纳米到5纳米、3纳米、2纳米，每代芯片工艺带来的性能提升有限，而且成本极高。系统工程优化，带来的算力效率提升，约等于两代到三代的芯片工艺演进。这一定程度弥补了芯片工艺不足。

　　AI芯片的半导体工艺正朝着2纳米方向前进，大模型训练也正在朝着十万卡集群的方向前进。有两个核心问题，近2年-3年一直困扰着中国AI产业——如何用国产AI芯片训练出能够媲美国际科技巨头的大模型？如何让国产AI芯片持续迭代，跟上芯片工艺制程的演进。

　　随着美国政府的出口管制步步紧逼，这两个命题正变得越来越急迫。但是，盘古Ultra、盘古Ultra MoE这两款大模型，以及CloudMatrix 384“超节点”的出现意味着，国产算力也能训练出世界一流的大模型。国产算力在重重限制下，也能另辟蹊径并持续演进。

　　昇腾缩小差距的种种系统工程方案，是一种典型的“非对称”竞争。它是特定历史时期和特定限制条件下的有效策略。这为中国未来在可见时间内，突破国产光刻机和更先进工艺制程的国产AI芯片，争取了宝贵的战略窗口。

『公司动态』PG电子(中国官方网站)在半导体领域的最新动态，包括技术突破、产品发布及公司活动，见证我们如何推动行业发展。

国产算力如何突破大模型训练这道“天堑”？

猜你喜欢

八亿时空：光刻胶树脂预计下半年可实现千万级收入已终止锂电新

揭秘中国光刻机突破：从保密奇迹到科技自立的不屈之路

最新光刻机公开造价4亿美金

三星电子14纳米制程开发遭遇挫折未来何去何从？