首页 > 人工智能 > 人工智能
发布日期:2025-03-11 15:31:22

华为与科大讯飞合作打造国产算力巨无霸:专家并行集群推理引领新风潮

巨无霸AI算力,引领智能新浪潮

   3月11日消息,科大讯飞研究院今日宣布,科大讯飞与华为在国产算力方面取得了重要突破,双方联合团队首次实现了国产算力集群上MoE模型的大规模跨节点专家并行集群推理。这标志着在DeepSeek发布其MoE模型训练推理方案之后,业界迎来了首个基于国产算力的创新解决方案。

   联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成了昇腾集群上的验证和部署。在算子融合方面,团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,从而消除了小算子下发开销,使得MLA前处理时延降低了50%。这样的改进不仅显著提升了系统的整体性能,也展示了硬件与软件之间高效协作的巨大潜力。 从这个成果可以看出,技术创新和跨领域的紧密合作对于推动科技发展至关重要。特别是在人工智能领域,软硬件协同优化能够极大地提高系统效率,减少不必要的资源消耗,从而加速各种复杂任务的处理速度。这一突破性的进展不仅为未来的AI应用提供了新的可能性,也为其他相关技术的发展树立了标杆。

   科大讯飞研究院表示,在混合并行策略和通信计算并行优化方面,团队开发了TP(张量并行)EP(专家并行)混合模式:在MLA计算层使用机内TP并行,利用机内高速互联的优势,减少跨机通信损耗;创新性地实施MoE专家分层调度,将64块GPU均匀分配给专家计算节点,并定制AllToAll通信协议,使专家数据交换效率提高了40%,构建了跨机与机内双层通信结构,通过分层优化降低了跨机流量60%;同时,还研发了一种路由专家负载均衡算法,使得各卡之间的负载差异小于10%,从而提升了集群吞吐量30%。

   通过分布式架构创新与算法协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的 1/4,效率提升 75%,专家计算密度增加 4 倍,推理吞吐提升 3.2 倍,端到端时延降低 50%。

   科大讯飞研究院宣布,这一创新性技术不仅将用于加速讯飞星火深度推理模型的训练,预计训练时的推理效率将提高200%。此外,基于此方案的推理引擎也在国产算力平台上实现了对DeepSeek V3和R1的有效推理。 这项技术的进步标志着人工智能领域的重要进展,特别是在提高训练效率方面。它不仅有助于加快深度学习模型的研发速度,还促进了国产算力平台的发展,为未来的智能应用提供了更强大的支持。这无疑是中国在人工智能领域自主创新能力增强的一个重要体现。

   从科大讯飞的公告中了解到,科大讯飞的深度推理大模型星火X1已经完成了升级。尽管其模型参数量相比行业内的其他竞争对手少了一个数量级,但星火X1在数学能力方面仍然能够与DeepSeekR1和OpenAIo1相媲美,并且在中文数学的各项任务中实现了领先。 这一进展展示了科大讯飞在人工智能领域的技术实力和创新能力。尽管在模型规模上不如一些竞争对手,但通过优化算法和模型结构,星火X1依然能够在特定领域达到顶尖水平,这无疑是一个值得肯定的进步。这也表明,对于人工智能的研究,不仅仅是追求更大的模型和更多的参数,更需要注重算法的优化和应用场景的深入探索。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有