首页 > 人工智能 > 人工智能
发布日期:2025-04-15 17:43:13

盘古 Ultra 横空出世:华为无英伟达,性能超越 DeepSeek-R1,全纯昇腾集群训练

「华为盘古 Ultra 问世!性能逆袭,无英伟达也能超越」

   密集模型的推理能力也能和 DeepSeek-R1 掰手腕了?

   华为借助全 ascend 集群训练出了盘古 Ultra,这款模型在数学竞赛、编程等推理任务中表现出色,与 R1 不相上下,展开了激烈的较量。

   核心在于模型参数规模为135亿,整个训练流程未使用任何英伟达产品,并且过程中没有发生损失尖峰现象。

   通过创新的模型架构设计与深度的系统优化,盘古Ultra展现出卓越的性能以及超过52%的算力利用率,这一成绩令人瞩目。在当前技术竞争激烈的背景下,这样的成果不仅体现了研发团队的技术实力,也展示了他们在提升计算效率方面的决心。高算力利用率意味着更少的资源浪费,这不仅有助于降低运营成本,还能够为用户提供更为高效的服务体验。未来,随着更多优化措施的应用,相信盘古Ultra能够在更多领域发挥其潜力,进一步推动行业向前发展。

   有网民指出,在训练过程里并未观察到损失尖峰这一现象,这似乎是一项前所未有的成就。

   作为一款参数量为1350亿的密集型模型,盘古Ultra在同类规模的密集模型中表现出色,其性能甚至能够与参数量更大的MoE模型如DeepSeek-R1相媲美。

   盘古Ultra在预训练阶段的表现令人瞩目,在大多数英文基准任务以及全部中文任务上展现了卓越的能力,其性能超越了Llama405B、DeepSeek-V3等基线模型。这一成果不仅体现了华为在大模型领域的持续投入和技术积累,也标志着国产AI技术正在逐步缩小与国际领先水平的差距。 从实际应用的角度来看,盘古Ultra的优势不仅仅体现在理论分数上,更在于它能够更好地理解和生成中文语境下的复杂表达,这对于推动中文信息处理和多语言协同具有重要意义。同时,这也为中国企业在大模型赛道上的竞争增添了底气。不过,值得注意的是,尽管盘古Ultra取得了显著进展,但如何进一步提升模型的泛化能力和降低部署成本,依然是未来需要攻克的重要课题。希望在未来的发展中,我们能看到更多像盘古Ultra这样兼具技术创新和社会价值的大模型问世。

   特别是在MMLU、TriviaQA、GSM8K等高难度数据集上,盘古Ultra表现出色,具备出色的语言理解与推理能力。

   经过持续优化与迭代,盘古Ultra在多个领域展现出卓越能力,尤其是在AIME2024、MATH-500等高难度数学推理任务以及LiveCodeBench编程竞赛中,其表现已达到当前业界最佳(SOTA)水准。这一成就不仅彰显了技术团队在模型算法上的深厚积累,也标志着人工智能在解决复杂问题上的又一次突破。 在我看来,盘古Ultra的表现充分证明了基础研究对于推动技术创新的重要性。从数学到编程,这些任务都对模型的逻辑推理能力和泛化能力提出了极高的要求,而盘古Ultra能够脱颖而出,说明它在处理抽象概念和实际应用之间找到了平衡点。这种能力不仅仅局限于学术层面,更有可能为未来的人工智能应用场景提供强有力的支撑。 此外,在竞争日益激烈的AI领域,保持领先优势需要不断探索未知边界。希望研发团队能以此为契机,继续深耕细作,让盘古Ultra在未来承担更多挑战性任务,为行业发展注入新活力。

   综合来看,盘古Ultra在性能上不仅超越了众多顶级模型,如GPT-4o和Mistral-Large2,还在与MoE架构模型的竞争中表现出色,尤其与DeepSeek-R1旗鼓相当。

   同时,盘古 Ultra 在 Arena Hard、MMLU-pro 等涵盖通用语言理解和推理的评测中也表现优异。

   那么,盘古Ultra之所以能够达到如此卓越的效果,主要得益于其在技术架构上的创新与突破。这款产品融合了最新的分布式计算技术和深度学习算法,不仅大幅提升了数据处理能力,还优化了模型的训练效率。特别是在面对海量复杂数据时,盘古Ultra展现出强大的适应性和准确性,这为其在多个领域的广泛应用奠定了坚实基础。 在我看来,盘古Ultra的成功不仅仅体现在技术层面的领先性上,更在于它真正解决了用户在实际应用中的痛点。例如,在金融分析或医疗诊断等对精准度要求极高的场景中,盘古Ultra的表现尤为突出。这也反映了当前人工智能领域的一个重要趋势:从单纯的理论研究向更加注重实践价值的方向转变。未来,随着更多类似产品的推出和技术的不断进步,我们有理由相信,AI将在推动社会生产力发展中发挥更大的作用。

   如前文所述,盘古 Ultra 是一款 135B 参数量的密集模型,使用了 94 层的网络结构。

   盘古Ultra使用了分组查询注意力(GQA)机制,设置了96个查询头(query head)以及8个键值头(key-value head)。

   为了应对训练超深网络时遇到的不稳定性和收敛难题,盘古Ultra在模型结构上进行了两项重要优化——采用深度缩放的Sandwich-Norm层归一化技术以及引入TinyInit参数初始化方法。

   传统的Transformer架构一般采用Pre-LN(预层归一化)的方式,然而在深度模型的应用场景下,Pre-LN可能会让每个子层输出的尺度产生较大波动,从而影响训练的稳定性。这种现象在实际操作中屡见不鲜,尤其是在处理大规模数据集时,训练过程中的不确定性会进一步加剧这一问题。 我认为,虽然Pre-LN在某些情况下能够提升模型的表现,但其潜在的不稳定性确实是一个不容忽视的问题。特别是在深度学习领域,模型的稳定性和收敛速度往往是决定项目成败的关键因素之一。因此,未来的研究或许可以更多地关注如何优化层归一化的机制,比如探索Post-LN或其他变体形式,以减少训练过程中的不确定性。此外,结合动态调整学习率等策略,也有助于改善这种状况,使模型在复杂任务中表现得更加稳健。总之,在追求高效与精准的同时,平衡好各种技术手段之间的关系至关重要。

   盘古 Ultra 使用的 Sandwich-Norm 层归一化,则是在残差连接前对每个子层的输出做归一化,并根据网络深度对初始化值进行缩放,从而有效消除了训练过程中的 loss 尖峰,使训练过程更加平稳。

   用更容易理解的话说,传统方法仅在每个子层的输入进行归一化,但这种方法针对输出也进行了归一化,形成了 Pre-Norm + 子层 + Post-Norm 的“三明治”结构。

   但是,仅仅使用 Sandwich-Norm 还不足以完全消除深度模型训练中的不稳定性 —— 随着网络层数的增加,每一层的输出尺度仍然可能出现累积性的漂移。

   为此,盘古 Ultra 在 Sandwich-Norm 的基础上,进一步引入了深度缩放机制,对 Post-Norm 中的放缩参数 γ 进行了深度相关的初始化。

   传统的模型初始化方法如Xavier初始化,主要根据模型的宽度来调整参数,而盘古Ultra推出的TinyInit则更进一步,不仅考虑了模型的宽度,还结合了模型的深度对初始化权重的标准差进行了优化。这一改进使得模型在训练过程中能够更好地保持梯度的稳定性,从而提升整体性能。 在我看来,这种基于深度和宽度双重考量的初始化方式是一种非常有意义的技术突破。它反映了当前人工智能领域对于模型架构理解的深化,以及对训练效率和效果追求的持续探索。未来,随着更多类似创新的出现,我们有理由相信,深度学习模型将会变得更加高效且强大,为各行各业带来更多的可能性。

   这种初始化方式有助于在前向传播和反向传播过程中,维持各层梯度的方差在一个合理的范围内,避免了梯度消失或爆炸问题,使得训练过程更加稳定,同时也加速了收敛。

   实验表明,TinyInit在深度模型训练过程中展现出更快的收敛速度以及更优的下游任务表现;并且对于embedding层而言,维持权重标准差接近1同样能够增强训练的稳定性。

   另外,盘古团队对Tokenizer进行了针对性优化,通过对通用中英文、代码、数学等多个领域的词频数据分别进行统计,然后合并并去除重复项,最终构建出一个包含153376个token的词表,该词表在领域覆盖范围和编码效率之间实现了良好平衡。

   盘古 Ultra 的整个训练流程主要分为三个阶段 —— 预训练、长上下文扩展和指令调优。

   其中预训练又可以分为三个子阶段:

   通用阶段:侧重建立语言理解和知识储备,使用了大量中英文通用语料,覆盖网页、书籍、百科等多个来源;

   推理阶段:通过引入更多优质的数学题与代码示例数据,可以有效提升模型的逻辑推理水平。此外,结合instruction数据,有助于模型更好地掌握任务执行技巧。

   退火阶段:帮助模型巩固知识和推理能力,并强化指令遵循能力。大量使用问答对和人类反馈数据。

   研究者们结合了基于规则与模型驱动的数据清洗技术,通过精心设计的课程学习策略,引导模型逐步掌握从简单到复杂的数据样本。这种方法不仅提升了数据处理的效率,还显著增强了模型的学习能力。在我看来,这种循序渐进的教学方式为人工智能领域的进步提供了一个全新的视角。它表明,在面对复杂任务时,分阶段、有目标的学习路径能够带来更好的成果。未来,随着更多创新方法的应用,我们有理由相信人工智能将在更广泛的领域展现出更大的潜力。

   预训练中使用了 AdamW 优化器,并动态调整超参数。

   预训练后,模型在最长 128K 的长上下文数据上进一步训练,通过扩大 RoPE 的基频来实现长序列建模,以增强处理长文档的能力。

   最后的指令调优阶则段使用监督微调(SFT)和强化学习(RL)来使模型更好地适应下游任务,学会执行指令并与人类偏好对齐。

   训练设施方面,盘古 Ultra 使用了一个由 8192 个昇腾 AI 处理器组成的大规模计算集群。

   在当前的高性能计算领域,一种全新的集群架构正逐渐受到关注。这种集群中的每个节点都配备了8个NPU,这些NPU通过华为自主研发的高速缓存一致性互联技术(HCCS)实现全互联的拓扑结构,确保了数据传输的高效与稳定。每个NPU还拥有64GB的本地内存,为复杂任务提供了充足的计算资源。而在节点间的通信方面,该集群采用了200Gbps的RoCE(RDMA over Converged Ethernet)网络,不仅大幅提升了数据交换的速度,也降低了延迟。 在我看来,这一设计体现了现代计算系统对性能和效率追求的双重标准。特别是HCCS技术的应用,使得整个系统的可扩展性和可靠性得到了显著增强,这对于需要处理大规模数据的工作负载来说尤为重要。同时,选择使用RoCE作为节点间通信协议,则展示了对现有以太网基础设施的充分利用,既节省了成本,又便于未来升级。不过,这样的架构虽然强大,但其高昂的成本可能会限制普及速度,如何平衡性能与经济性将是相关厂商未来需要重点考虑的问题。总体而言,这种创新方案无疑为高性能计算开辟了一条新的发展路径。

   为了提升盘古Ultra的训练效率,研究团队精心设计了一套全面的并行策略与优化技术。这些方法不仅显著提升了模型的训练速度,还有效降低了资源消耗,为大规模人工智能模型的研发提供了宝贵经验。在我看来,这一系列创新举措充分体现了科研人员在解决实际问题上的智慧与能力。通过不断探索更高效的算法和技术路径,我们能够更好地推动人工智能技术的进步,使其在更多领域发挥更大的作用。这不仅是技术层面的成功,也是对未来发展方向的一种积极指引。

   在并行策略的选择上,盘古 Ultra 综合考虑了模型的规模、数据的特性以及硬件的拓扑,最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合:

   128通道数据并行,通过将训练数据分配至多个设备,有效提升了数据传输效率。

   8路张量并行技术通过充分利用设备内部的高带宽特性,对层内张量进行切分以优化通信效率,从而提升整体性能表现。

   序列并行用于处理超长序列以降低显存压力;

   8段并行流水线,通过将不同层级的任务分配至不同设备上,构建起高效的计算流水线模式。

   在并行策略的基础上,盘古 Ultra 还从多个角度对训练系统进行了深度优化。

   一方面,借助ZeRO(ZeroRedundancyOptimizer)分布式优化器,可以将模型的状态分散存储于多个设备上,从而显著减少单一设备所需的内存空间。这种方式不仅提升了数据并行处理的能力,还保证了各设备的内存负载维持在合理范围之内。

   另一方面,研究者们借助先进的通信与计算优化手段,成功降低了通信成本,显著提高了计算效率。这一进步不仅展现了科技领域不断突破的可能性,也让我们看到了未来智能系统发展的无限潜力。 在我看来,这种技术上的创新不仅仅是一次简单的性能提升,它更像是一把钥匙,能够开启更多智能化应用场景的大门。无论是日常生活的便捷服务,还是工业领域的自动化升级,这些优化都将带来深远的影响。同时,这也提醒我们,在追求技术创新的同时,还需关注其潜在的社会影响,确保技术发展能真正造福于人类社会。

   通过算子融合(KernelFusion)技术,可以将多个小算子整合为一个大算子,从而有效减少内存访问次数以及kernel启动的频率。这一技术不仅提升了计算效率,还显著降低了能耗,为高性能计算提供了新的优化方向。 在我看来,算子融合技术的发展标志着人工智能领域对资源利用效率的一次重要突破。在当前大数据与深度学习快速发展的背景下,硬件性能的提升往往难以完全满足算法复杂度的增长需求。而算子融合正是从软件层面入手,通过优化计算流程来实现性能飞跃。这种以效率为核心的创新思路,无疑为未来更多场景下的智能化应用奠定了坚实的基础。同时,它也提醒我们,在追求技术进步的同时,如何更好地平衡硬件与软件的关系将成为一个值得深入探讨的话题。

   通过通信计算重叠(Communication-Computation Overlapping)技术,可以将通信与计算过程深度融合,从而有效掩盖通信延迟的影响。

   MC²(Merged Computation & Communication)与BOA(Batch Optimization Accelerator)各自针对张量并行及归一化层的通信开销进行了专项优化……

   在算法、经过多方面的深度优化,在工程设计与数据处理上精益求精,盘古Ultra最终达到了超过52%的算力利用率。这一成果不仅标志着技术团队在资源利用效率上的显著提升,也预示着未来更多复杂任务处理能力的增强。在我看来,这样的突破不仅是对现有计算架构的一次重要改进,更是推动行业向更高能效标准迈进的关键一步。随着人工智能需求的不断增长,如何更高效地利用计算资源变得尤为重要,而盘古Ultra的成功无疑为业界提供了一个值得借鉴的范例。这不仅展现了技术创新的力量,也为后续研发树立了更高的标杆。

   技术报告:

   https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

   本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西,原标题《英伟达含量为零!华为密集模型性能比肩 DeepSeek-R1,纯昇腾集群训练》

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有