超越极限,绽放计算之光
1月30日,据Tom'sHardware报道,美国阿贡国家实验室宣布,其备受期待的Aurora超级计算机已经全面投入运行,并正式面向全球科学界开放。这台超级计算机自2015年首次公布以来,经历了多次推迟,最终在近日完成了全部建设工作。Aurora拥有超过1FP64 ExaFLOPS的模拟计算能力,并且能够提供11.6混合精度ExaFLOPS的性能,以支持人工智能和机器学习任务。 Aurora的正式启用标志着高性能计算领域的一个重要里程碑。尽管该项目遭遇了数年的延迟,但其最终的成果无疑将推动科学研究和技术创新的发展。特别是在当前全球对AI技术日益增长的需求下,Aurora将为科学家们提供前所未有的计算资源,有助于加速在医学、气候科学和材料科学等多个领域的研究进程。
据了解,Aurora原本计划在2018年完成,但因英特尔停止生产Xeon Phi处理器而受到影响。此后,由于英特尔7纳米工艺的延期,Aurora项目的开发多次被推迟,最终直至2023年才得以完成。
尽管硬件在 2023 年 6 月安装完成,但系统直到 2024 年 5 月才真正达到了 Exascale 性能,且在此之前,系统仅对少数选定研究人员开放。据 HPL-MxP 基准测试,Aurora 能够实现 11.6 混合精度 ExaFLOPS。
该系统由166个机架构成,每个机架内有64个计算节点,总共拥有10624个计算节点。每个节点配备了两个Xeon Max处理器以及64GB HBM2E内存,并且还配置了六个英特尔数据中心Max“Ponte Vecchio”GPU。整个系统的冷却工作依靠高效的液冷技术来完成。 这种设计不仅展现了现代超级计算机在处理能力上的巨大飞跃,也反映了当前信息技术领域对于高密度计算资源的需求日益增加。液冷技术的应用则表明,随着硬件性能的不断提升,散热问题已经成为影响系统稳定性和效率的关键因素。未来,如何进一步优化冷却系统,以支持更高密度、更大规模的计算集群,将是科技界需要持续关注的问题。
Aurora拥有21248个CPU和超过110万个x86核心,内存方面则配备了19.9PB的DDR5内存和1.36PB的HBM2E内存。该超级计算机还配备了63744个专为AI和高性能计算优化的GPU,总计提供8.16PB的HBM2E内存。系统由1024个节点组成,每个节点都具备强大的220PB存储容量和31TB/s的带宽。Aurora采用了HPE的Shasta架构与Slingshot互连技术,确保了其在处理复杂计算任务时的卓越性能。 从技术角度来看,Aurora的配置无疑展示了当今超级计算机技术的顶尖水平。特别是在存储容量和带宽方面,如此庞大的数据处理能力意味着Aurora将在科学研究、天气预报以及人工智能等领域发挥重要作用。同时,这种级别的硬件配置也反映了高性能计算领域正向着更高效能和更大规模的方向发展。