首页 > 人工智能 > 人工智能
发布日期:2025-02-12 10:39:08

浪潮信息发布元脑 R1 推理服务器,助力单机部署深度查找模型运行!

颠覆传统,智能加速!浪潮信息发布元脑 R1 推理服务器引领单机深度查找模型新风潮!

   2月12日,浪潮信息发布了元脑R1推理服务器,该产品通过系统创新和软硬件协同优化,能够支持单机部署运行DeepSeekR1671B模型。

   注:DeepSeek近日开源了多个版本的模型,其中,DeepSeekR1671B作为全参数的基础大模型,在泛化能力、准确性和上下文理解方面都优于蒸馏模型,但这也对其所运行的系统的显存容量、显存带宽、互连带宽和延迟提出了更高的要求。

   在FP8精度下,至少需要大约800GB的显存来承载计算任务,而FP16或BF16精度则要求显存超过1.4TB。这一需求无疑对硬件提出了极高的要求,尤其是对于那些追求高性能计算的专业领域来说。随着人工智能技术的发展,特别是在大规模模型训练方面的需求日益增长,如何有效管理与优化这些庞大的显存需求,已经成为科技公司和研究机构必须面对的重要课题。这不仅关乎成本控制,还直接影响到运算效率与项目进度。因此,寻找更高效的算法和硬件解决方案,以减少对显存资源的依赖,将是未来研究的一个重要方向。

   此外,DeepSeekR1是一款典型的具备长思维链的模型,擅长短输入和长输出的应用场景,在推理解码过程中需要较高的显存带宽以及极低的通信延迟。

   元脑R1推理服务器NF5688G7原生搭载了FP8计算引擎,并配备了高达1128GB的HBM3e显存。这一配置不仅能够满足671B模型在FP8精度下不低于800GB显存容量的需求,而且在单机支持全量模型推理的情况下,依然能保留充足的KV缓存空间。该服务器的显存带宽更是达到了惊人的4.8TB/s,这样的性能表现无疑为大规模模型的高效运行提供了坚实的保障。这表明,随着人工智能技术的发展,硬件设备也在不断进化,以适应日益复杂的计算需求。高性能的显存和带宽不仅提升了推理速度,也使得模型的复杂度和规模有了更大的发展空间,这对于推动AI技术的应用落地具有重要意义。

   在通信方面,GPUP2P的带宽达到900GB/s,采用最新的推理框架后,单机能够支持20至30用户的并发请求。此外,单台NF5688G7服务器配置了3200Gbps的无损扩展网络,可以根据用户业务需求的增长进行快速扩展,为R1服务器集群提供一站式解决方案。

   元脑R1推理服务器NF5868G8是一款专为大型推理模型设计的高性能服务器。它在行业内首次实现了单台设备支持16张标准PCIe双宽加速卡,提供了高达1536GB的显存容量,能够在FP16/BF16精度下支持DeepSeek671B模型的单机部署。 这款服务器的推出无疑为深度学习领域带来了新的突破。特别是在处理大规模推理任务时,其强大的硬件配置能够显著提升效率和性能。这不仅意味着开发者可以在更短的时间内完成复杂的数据分析任务,同时也降低了部署成本和运维难度。对于科研机构和企业来说,NF5868G8提供了一种高效且经济的解决方案,使得他们能够更加专注于模型的优化和创新,而非被硬件限制所困扰。

   该服务器采用基于PCIe Fabric的16卡全互连拓扑结构,确保任意两张卡之间的点对点通信带宽达到128GB/s,同时减少了超过60%的通信延迟。通过软硬件协同优化,相较于传统的双机八卡PCIe架构,NF5868G8服务器能够将DeepSeek671B模型的推理性能提升约40%。此外,该服务器还支持多种AI加速卡的选配。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有