『公司动态』PG电子(中国官方网站)在半导体领域的最新动态,包括技术突破、产品发布及公司活动,见证我们如何推动行业发展。

国产算力如何突破大模型训练这道“天堑”?

2025-06-14  

  华为缩小AI算力差距的策略,是一种典型的非对称竞争。它是特定历史时期和特定限制条件下的有效策略,为中国未来突破国产光刻机和更先进工艺制程的国产AI芯片,争取了宝贵的战略窗口

  过去三年,中国、美国科技巨头的大模型,绝大部分是英伟达的AI芯片上训练出来的。国产选手和英伟达之间,隔着一道天堑。逻辑很简单,英伟达不仅单卡性能更强,软件生态也更完整。

  pg电子官方网站

  美国政府一直在限制对中国出售先进AI芯片。今年4月,美国商务部已限制英伟达对华出售中国市场的H20芯片。而H20事实上已经是英伟达芯片的性能版。

  中国大陆买家理论上已无法通过正常渠道获取英伟达的先进AI芯片。自主可控才能把命运掌握在自己手里。

  昇腾910系列是中国企业使用最多的国产AI芯片,包括字节跳动、阿里、腾讯、百度、蚂蚁金服等大型科技企业都在使用昇腾910。

  不过,过去三年,中国大部分科技大厂把昇腾910更多用在推理环节,而不是用作模型训练。

  模型训练是个复杂的系统工程。一个基础大模型,通常在数万枚先进AI芯片(如英伟达GB200/H200/H100)组成的算力集群上,进行数周甚至数月的不间断训练。在万卡集群中,芯片、网络、软件随时可能故障。集群规模越大,故障概率就越高。一旦故障,训练任务就会中断,不仅浪费时间,还浪费算力。

  今年1月,某科技公司的一位战略规划人士透露,当时他们发现,昇腾910系列芯片单卡性能不够强,且存在软件生态不完善等问题。但英伟达的A800/H800/H20等芯片不断被限制出售后,用国产AI芯片训练大模型已被很多中国科技公司提上了议事日程。

  此时,华为也取得了重要技术进展——用昇腾910训练出了1350亿参数的盘古Ultra和7180亿参数的盘古Ultra MoE。华为还用系统工程手段突破了昇腾910单卡性能相对不足的短板。

  今年4月-5月,华为在预印本论文平台arXiv先后公布了两篇技术论文,分别介绍了如何使用昇腾910训练1350亿参数盘古Ultra Dense(可译为,稠密)模型、7180亿参数的盘古Ultra MoE(mixture of experts,可译为,稀疏或混合专家)模型。

  今年4月,华为发布了CloudMatrix 384“超节点”(“超节点”指把数十枚、数百枚AI芯片互联)方案。它采取系统工程的策略,把384张昇腾910互联在一起。这个方案克服了单卡性能不足的问题,让整个系统性能更优。

  包括华为云、计算产品线实验室、数通产品线、光产品线等团队都参与了“算力会战”。

  华为通过跨部门作战的方式,把几十年积累的各种能力用于解决散热、供电、高速互联网、大芯片在板可靠性等工程问题。

  昇腾芯片如何突破大模型训练这道难关?华为的两篇技术论文对此有非常详尽的解释。

  其中名为《盘古Ultra:在昇腾NPU上突破高密度大语言模型的极限》的论文详细分析了,如何用8192枚昇腾910系列芯片训练1350亿参数盘古Ultra这一Dense模型。

  训练盘古Ultra的难点之一是,盘古Ultra有94个网络层。这种深层稠密模型普遍训练不稳定,容易出现“损失尖峰”。这会对模型造成“不可逆的性能损害”。为此,华为技术团队通过“深度缩放三明治归一化”等算法,解决了训练稳定性问题。论文显示,盘古Ultra模型性能在基准测试中和GPT-4o-0513、Llama 405B等行业领先的Dense模型不相上下。

  华为另一篇主题为《盘古Ultra MoE:如何在昇腾NPU上训练你的大模型》的论文讲述了,如何用6000多枚昇腾910系列芯片训练7180 亿参数的盘古Ultra MoE这款稀疏模型。

  训练盘古Ultra MoE,要解决稀疏结构下,高效利用算力资源并减少通信开销的问题。为此,华为技术团队采用了模拟仿线“量身定做”了模型参数和模型结构。盘古Ultra MoE使用了256个专家模型平衡性能、效率。专家调度、通信开销和负载均衡等系统问题最终也被攻克,这取得了不错的效果。在基准测试中,盘古Ultra MoE与行业领先的稀疏模型DeepSeek-R1性能相当。

  (华为两篇技术论文,分别讲述了如何在昇腾910系列芯片的集群上训练Dense模型和MoE模型  图源/华为在arXiv上公布的预印本论文)

  一位华为技术专家介绍,盘古Ultra和盘古Ultra MoE实现了长期稳定的训练。

  对企业客户来说,昇腾910能做到稳定训练大模型还不算完全具备竞争力。它必须低成本、高效率才有实际意义——这需要关注MFU(模型算力利用率Model FLOPs Utilization)这个重要指标。

  在大模型训练中,MFU是评估算力集群效率的重要指标。MFU越高,意味着芯片利用率越高、训练时间越短、训练总成本越低。

  在训练盘古Ultra这款稠密模型时,8192枚昇腾910组成的算力集群,MFU超过50%。《财经》了解到,训练Dense模型的行业基准MFU通常是40%-50%,超过50%属于行业前列。

  华为披露的最新数据显示,在训练盘古Ultra MoE这款稀疏模型时,6000多枚昇腾910芯片组成的算力集群,MFU达到41%。这远远高于行业平均水平。《财经》了解到,稀疏模型比稠密模型,参数更大调度更复杂,因此MFU相对更低。训练稀疏模型时,行业基准MFU通常是30%左右。

  一位华为技术专家对《财经》表示,目前实验室内,盘古Ultra MoE的MFU达到了45%。盘古Ultra MoE的预训练尚未使用CloudMatrix 384。未来如果使用CloudMatrix 384训练大模型,MFU还将进一步提升。目前,有很多大型科技公司的客户对CloudMatrix 384感兴趣。

  一位科技公司基础设施负责人2024年11月曾向《财经》介绍,在模型训练中的有效AI算力=单卡算力有效率×并行计算有效率×有效训练时间。极端情况下,模型训练过程中会浪费一半的算力资源。如何避免浪费是一个重要课题,算力效率越高,训练成本就越低。

  昇腾910的集群目前可以实现稳定训练,且能相对低成本、高效率地训练大模型。那么,华为为何此时公布这些技术进展?

  一位华为资深技术专家直言,以前大家选昇腾,并不是认为昇腾先进,只是因为美国断供而被迫使用。

  但华为志不在此,更希望让行业了解昇腾的真实能力,也希望通过自身实力赢得客户。

  目前,华为针对互联网行业和关键信息基础设施行业的客户,会派出中高级专家组成的“小巧灵突击队”,到一线现场支持客户用好昇腾。

  据《财经》不完全统计,截至2025年6月11日,中国和美国参与模型竞争的10家科技公司(包括华为、字节跳动、阿里、腾讯、百度、

  在2025年刚刚过去的162天内发布或迭代了至少23版大模型,平均每7天就会有一版新的大模型诞生。

  英伟达的AI芯片,几乎每年都在迭代。英伟达2023年主力产品是A100,采用7纳米工艺制程;2024年主力产品是H100/H200,采用4纳米工艺制程;2025年主力产品是GB200,它由两枚B200串联成一块芯片,采用3纳米工艺制程。美国科技公司2025年初推出的大模型大多是在H100/H200集群上训练的,后续将在GB200集群上训练。

  这意味着,后续训练大模型,需要更强、更多的芯片。昇腾910系列不可能原地踏步,它必须持续迭代,才能训练出更好的模型。

  如果仅对比单卡性能,客观说,昇腾910目前和英伟达GB200等旗舰芯片存在较大差距。但是,华为正在采取系统工程手段突破算力集群的峰值性能,挖掘昇腾910系列芯片的潜力。

  华为的策略是,避开单颗芯片的直接对抗,转而在系统架构层面,用超大规模集群的方式,实现系统总性能的赶超。

  今年4月,华为发布的CloudMatrix 384,就是把384枚昇腾910芯片集成在16个机柜,再通过光缆构建高带宽、低时延的互连网络组成一个单位集群。好处是,这可以降低芯片并行计算的通信损耗,最终提升整体算力效率。CloudMatrix 384单位集群拓展到万卡时,它的性能损耗比传统的8卡、16卡服务器集群更小。

  国际半导体和AI研究机构SemiAnalysis分析称,昇腾910单卡性能约为780 TFLOPS(每秒1万亿次浮点运算),英伟达GB200单卡性能约为2500 TFLOPS。昇腾单卡性能仅为英伟达的GB200的三分之一。但华为CloudMatrix 384集群性能是300 PFLOPS(每秒1000万亿次的浮点运算,PFLOPS是TFLOPS的1000倍),GB200 NVL72的集群性能是180 PFLOPS。华为CloudMatrix 384集群性能是英伟达GB200 NVL72的1.6倍。

  一位华为云人士今年4月曾对《财经》表示,英伟达GB200 NVL72使用铜缆做连接,但华为CloudMatrix 384使用光缆做连接。光缆的缺陷是,安装、维护难度更高。但华为做通信多年,能做到低故障率。这带来的收益是,可以做到低时延、高带宽,压榨出更高的峰值性能。

  这种大集群模式还突破了中国HBM(High Bandwidth Memory,高带宽内存)芯片性能更低的问题。去年12月,美国政府限制对中国出售高性能HBM芯片——这是先进AI芯片必不可少的零部件。中国后续无法获得更高性能的HBM芯片。HBM性能低,会让模型训练变得拥塞,训练时间变得更长。

  但国际半导体和AI研究机构SemiAnalysis分析认为,CloudMatrix 384的芯片数量更多,集成的HBM个数也更多,因此拥有内存和带宽也更大。

  英伟达创始人黄仁勋今年5月28日接受媒体采访时直言:“有很多基础事实表明,华为的技术可能与H200相当。”黄仁勋认为,向市场提供CloudMatrix 384系统证明华为的行动非常快,“这可以扩展到比我们最新一代Grace Blackwell(NVL72)更大的系统。华为不会坐以待毙,他们想方设法寻找竞争的路径。”

  种种现实条件制约不少的限制下,华为的策略相对激进,核心是解决系统工程问题。

  为解决网络问题,华为技术团队根据计算系统的需求重新定义了互联总线。为实现算力高效调度,就要用操作系统实现资源池化。为了让系统平稳工作,还需要有大动态的供电。384枚芯片在一起发热量巨大,则要使用散热效率更高的液冷技术。

  一位华为资深技术人士介绍,训练大模型需要大系统。华为技术团队在计算、内存、通信、存储、散热、供电以及软件等方面投入大量精力进行优化,最终实现系统性能更优。华为几十年在ICT领域,尤其是硬件工程、基础软件积累很深,因此有能力把复杂系统做好。

  上述华为资深技术人士解释,华为基于中国的现实情况,解决中国的现实问题。华为不简单追求单点技术的路线,

  而是以面积换能力、以堆叠增容量、以集群扩规模,通过超节点的系统工程创新,实现规模算力的领先和效能的最优。

  想要训练出更好的模型,芯片要迭代,软件生态也要不断完善——这样才能提升国产AI芯片的易用性。

  软件生态一直被视为是昇腾910系列芯片的重要短板。这在2023年之前尤为明显,但在2024年-2025年,昇腾的软件生态已经有所好转。

  所谓的软件生态,主要包括两大部分——芯片的开发工具栈(华为CANN、英伟达CUDA)、模型的深度学习框架(华为MindSpore、开源PyTorch/谷歌TensorFlow)。

  华为的CANN、MindSpore起步相对更晚,它短时间内很难改变开发者长期形成的习惯。但积极信号是,一些弯道追赶的技术机会正在出现。

  过去,AI模型的架构比较分散,技术路径不统一,各类算子有几万个,加上衍生的算子有十万以上。这对英伟达这种CUDA生态做了十几年的厂商来说并不难。开发者设计算子后,会第一时间适配英伟达的芯片。但对华为等后发芯片厂商来说,想让自家芯片支持所有主流模型,就必须开发、优化数万个算子。正常情况下,这几乎是不可能完成的任务。

  2023年之后,各种各样的模型逐渐收敛到Transformer、Diffusion架构。以目前主流的GPT系列、Qwen系列、Llama系列、Deepseek-V3等模型为例,它们使用的核心算子大约只有几百个,这让后发芯片厂商有了缩小生态差距的机会。

  一位资深算法工程师对《财经》解释,算子融合、淘汰性能不足的算子后,需要开发的算子数量的确在大幅减少。如今只需要专注开发有限的算子,适配工作量大大减轻。因此,生态差距有希望缩小。

  一位华为资深技术人士介绍,华为已经开发补齐了高质量、高性能的基础算子,并把这些算子深度开放给客户。国内头部客户很快就适配了他们自己的模型和应用。

  其次,AI代码生成技术正在普及。这也让后发芯片厂商有机会缩小软件生态的差距。

  一种乐观设想是,如果AI代码生成工具能针对国产AI芯片自动优化算子,适配门槛将大幅降低。上述资深算法工程师解释,如果国产AI厂商能提供详尽的芯片架构文档和丰富的代码案例,为代码生成工具提供充足的背景信息,开发者未来或许可以借助AI让算子在不同芯片之间迁移,大幅减少开发工作量。届时,CUDA的软件生态壁垒可能会进一步削弱。

  一位华为技术人士的看法是,“CANN+MindSpore”目前和“CUDA+PyTorch/TensorFlow”相比,的确历史积淀不足。但昇腾是开放的,CANN支持客户通过PyTorch/TensorFlow等主流框架使用昇腾。华为的MindSpore也在不断提升易用性,贴近开发者习惯。在他看来,国产AI芯片想提升竞争力,必须形成生态规模。为此,应该扶持主流的国产技术路线。

  华为目前在采取务实的策略。一方面,持续打磨自家的MindSpore框架;另一方面,让 CANN兼容PyTorch/TensorFlow等主流框架,吸引开发者将大模型无缝迁移到昇腾硬件上,同时完善自己的软件生态。目前,昇腾支持开发者将在其他芯片上训练的大模型一键部署到昇腾上。

  昇腾持续进步的同时,美国政府的芯片出口管制始终是中国AI产业头上的“达摩克利斯之剑”。这些威胁还在步步紧逼。

  中美AI产业的战略博弈中,有一条主线——美国政府一直希望限制中国获取先进AI芯片,锁死中国的AI技术上限。具体管制手段包括不限于:

  其一,禁止中国大陆采购最先进的AI芯片。美国商务部工业安全局限定了英伟达对中国市场出售AI芯片的性能上限,今年4月又限制英伟达对华出售“”的H20芯片。

  其二,禁止荷兰ASML公司对华出售EUV(极紫外光刻)光刻机。中国半导体制造工艺暂时被限制在7纳米及以上水平,

  然而,让国产AI芯片从能用变得好用,已经是中国产业界的共识。一位芯片技术人士今年4月末曾对《财经》表示,从拜登政府到特朗普政府,美国每一轮出口管制都在倒逼中国提升AI芯片的自研意志和自研能力。

  如何让国产AI芯片从能用变得好用?系统工程和工艺制程,是两个重要方向。哪怕是英伟达,也是在两条腿走路。

  对中国的有利之处是,近两年,半导体工艺提升带来的边际效应在衰减。随着晶体管尺寸逼近物理极限,提升工艺的难度、成本急剧增加,功耗、散热的挑战也在急剧提升。

  以英伟达B200为例,它采用3纳米工艺,相比4纳米的H100,单颗GPU性能提升30%,功耗增加超过70%。英伟达的这一代产品在系统工程方向进行了大幅改进——英伟达的GB200 NVL72,就是把72枚GB200集成在一个机柜,做成一个超节点。从英伟达的产品演进来看,系统工程带来的性能提升,比改进芯片工艺制程更简单直接。

  一位华为技术专家的看法是,短期内系统工程带来的提升的确更有效,这也是当前形势下华为优先努力的方向。

  上述华为技术专家认为,从单芯片提升路径来看,从7纳米到5纳米、3纳米、2纳米,每代芯片工艺带来的性能提升有限,而且成本极高。系统工程优化,带来的算力效率提升,约等于两代到三代的芯片工艺演进。这一定程度弥补了芯片工艺不足。

  AI芯片的半导体工艺正朝着2纳米方向前进,大模型训练也正在朝着十万卡集群的方向前进。有两个核心问题,近2年-3年一直困扰着中国AI产业——如何用国产AI芯片训练出能够媲美国际科技巨头的大模型?如何让国产AI芯片持续迭代,跟上芯片工艺制程的演进。

  随着美国政府的出口管制步步紧逼,这两个命题正变得越来越急迫。但是,盘古Ultra、盘古Ultra MoE这两款大模型,以及CloudMatrix 384“超节点”的出现意味着,国产算力也能训练出世界一流的大模型。国产算力在重重限制下,也能另辟蹊径并持续演进。

  昇腾缩小差距的种种系统工程方案,是一种典型的“非对称”竞争。它是特定历史时期和特定限制条件下的有效策略。这为中国未来在可见时间内,突破国产光刻机和更先进工艺制程的国产AI芯片,争取了宝贵的战略窗口。

上一篇:国林科技:公司正在积极研发半导体级别的高纯二氧化碳发生器相关
上一篇:日本Rapidus 2纳米半导体7月试产全球首款尖端技术即将

猜你喜欢

  • 八亿时空:光刻胶树脂预计下半年可实现千万级收入 已终止锂电新

    八亿时空:光刻胶树脂预计下半年可实现千万级收入 已终止锂电新

      pg电子官方网站树脂产能建设积极推动,百吨级产能基本建设完成,目前正在进行试生产相关活动,进展顺利,预计今年下半年能够实现正式量产。预计2025年下半年会实现千万级别的收入规模。  “未来随着光刻胶国产化比例的提升以及公司在多家客户中出货量的增加,该业务的收入水平还将继续提升,争取更大的市场占有率。”薛秀媛进一步补...
  • 揭秘中国光刻机突破:从保密奇迹到科技自立的不屈之路

    揭秘中国光刻机突破:从保密奇迹到科技自立的不屈之路

      在科技的世界里,每一次重大的突破都不仅仅是一项技术的进步,它更是一个国家科技实力的象征。最近,国产光刻机的横空出世,无疑是中国科技领域的一件大事。让我们来聊聊这个话题,探讨一下国产光刻机的崛起之路。  首先,得了解一下光刻机的重要性。光刻机,作为半导体制造的核心设备,其地位相当于舞台上的主角,每一个精确的动作都至关...
  • 最新光刻机公开造价4亿美金

    最新光刻机公开造价4亿美金

      pg电子官方最近,荷兰半导体设备大厂阿斯麦(ASML,又称艾司摩尔)搞了个大新闻,他们耗时近十年打造的新一代高数值孔径极紫外光光刻机(High-NA EUV)亮相了。  这玩意儿可不得了,造价超过4亿美元,比双层巴士还大,堪称芯片制造界的“超级巨兽”。  它可是ASML极紫外光(EUV)设备的新一代版本,这里的“N...
  • 三星电子14纳米制程开发遭遇挫折未来何去何从?

    三星电子14纳米制程开发遭遇挫折未来何去何从?

      根据钛媒体App于3月17日的报道,三星电子在推进其前沿的1.4纳米制程技术开发中,正面临潜在的中断风险。这一消息似乎为全球半导体市场投下了一颗重磅炸弹,毕竟,三星作为全球半导体巨头之一,任何技术上的波动都可能引发一系列连锁反应。  首先,我们需要了解什么是1.4纳米制程技术。简单来说,这是一种用于制造更小、更高效...
微信

手机扫一扫添加微信