颠覆传统,智能加速!浪潮信息发布元脑 R1 推理服务器引领单机深度查找模型新风潮!
2月12日,浪潮信息发布了元脑R1推理服务器,该产品通过系统创新和软硬件协同优化,能够支持单机部署运行DeepSeekR1671B模型。
注:DeepSeek近日开源了多个版本的模型,其中,DeepSeekR1671B作为全参数的基础大模型,在泛化能力、准确性和上下文理解方面都优于蒸馏模型,但这也对其所运行的系统的显存容量、显存带宽、互连带宽和延迟提出了更高的要求。
在FP8精度下,至少需要大约800GB的显存来承载计算任务,而FP16或BF16精度则要求显存超过1.4TB。这一需求无疑对硬件提出了极高的要求,尤其是对于那些追求高性能计算的专业领域来说。随着人工智能技术的发展,特别是在大规模模型训练方面的需求日益增长,如何有效管理与优化这些庞大的显存需求,已经成为科技公司和研究机构必须面对的重要课题。这不仅关乎成本控制,还直接影响到运算效率与项目进度。因此,寻找更高效的算法和硬件解决方案,以减少对显存资源的依赖,将是未来研究的一个重要方向。
此外,DeepSeekR1是一款典型的具备长思维链的模型,擅长短输入和长输出的应用场景,在推理解码过程中需要较高的显存带宽以及极低的通信延迟。
元脑R1推理服务器NF5688G7原生搭载了FP8计算引擎,并配备了高达1128GB的HBM3e显存。这一配置不仅能够满足671B模型在FP8精度下不低于800GB显存容量的需求,而且在单机支持全量模型推理的情况下,依然能保留充足的KV缓存空间。该服务器的显存带宽更是达到了惊人的4.8TB/s,这样的性能表现无疑为大规模模型的高效运行提供了坚实的保障。这表明,随着人工智能技术的发展,硬件设备也在不断进化,以适应日益复杂的计算需求。高性能的显存和带宽不仅提升了推理速度,也使得模型的复杂度和规模有了更大的发展空间,这对于推动AI技术的应用落地具有重要意义。
在通信方面,GPUP2P的带宽达到900GB/s,采用最新的推理框架后,单机能够支持20至30用户的并发请求。此外,单台NF5688G7服务器配置了3200Gbps的无损扩展网络,可以根据用户业务需求的增长进行快速扩展,为R1服务器集群提供一站式解决方案。
元脑R1推理服务器NF5868G8是一款专为大型推理模型设计的高性能服务器。它在行业内首次实现了单台设备支持16张标准PCIe双宽加速卡,提供了高达1536GB的显存容量,能够在FP16/BF16精度下支持DeepSeek671B模型的单机部署。 这款服务器的推出无疑为深度学习领域带来了新的突破。特别是在处理大规模推理任务时,其强大的硬件配置能够显著提升效率和性能。这不仅意味着开发者可以在更短的时间内完成复杂的数据分析任务,同时也降低了部署成本和运维难度。对于科研机构和企业来说,NF5868G8提供了一种高效且经济的解决方案,使得他们能够更加专注于模型的优化和创新,而非被硬件限制所困扰。
该服务器采用基于PCIe Fabric的16卡全互连拓扑结构,确保任意两张卡之间的点对点通信带宽达到128GB/s,同时减少了超过60%的通信延迟。通过软硬件协同优化,相较于传统的双机八卡PCIe架构,NF5868G8服务器能够将DeepSeek671B模型的推理性能提升约40%。此外,该服务器还支持多种AI加速卡的选配。