云计算新纪元:超级算力联盟引领GPU卡间互联创新
智慧科技
12月26日,主题为“创新驱动智启新程”的2024中国人工智能大会(CCAI)在北京开幕,并举行了超节点算力集群创新联合体的揭牌仪式。
会上,北京市科委、中关村管委会、中国移动、浪潮集团、阿里云、清华大学及中国科学院等机构携手成立了“超节点算力集群创新联合体”,并举行了揭牌仪式。
据中国移动介绍,随着人工智能大模型的迅猛发展,其参数规模正向超万亿级别演进,模型的性能和泛化能力不断提升,对高性能智算基础设施的需求更为迫切。在此背景下,传统单台智算服务器仅能容纳 8 张 GPU 芯片的算力模式正被“超节点算力集群”这一形态所取代,以适应日益增长的算力需求。
“超节点算力集群创新联合体”的GPU卡间互联采用了由中国移动自主研发的OISA(全向智感互联)协议。这一协议的目标是创建一个高效、智能、灵活且开放的GPU卡连接系统。该系统旨在支持大规模模型训练、推理以及高性能计算等数据密集型的人工智能应用。 OISA协议的推出无疑是中国在推动AI技术发展方面的一个重要里程碑。它不仅体现了中国移动在技术创新方面的实力,也为全球AI研究者提供了一个新的合作平台。通过采用OISA协议,超节点算力集群创新联合体有望大幅提升计算效率和灵活性,从而加速AI技术的进步和应用落地。
为达成这一目标,OISA采用了全方位互联架构,确保大规模GPU之间的平等通信;同时融入智能感知机制,通过设定流量感知标识,并结合流量控制与重传策略,提升数据传输效率。
在协议层面,OISA采用了简洁高效的报文格式,同时支持内存与消息的多语义融合,实现了多层次的流量控制和重传机制,还特别优化了预设集合通信以提升效率。这些关键技术共同作用,使得OISA具备了高带宽、低延迟和高度可靠性的GPU通信能力。 这种技术设计不仅提升了数据传输的效率,而且在复杂计算环境中保证了信息传递的稳定性。它对于需要高性能计算的应用场景来说是一个重要的突破,特别是在科学计算和大规模数据处理领域,能够显著提高系统的整体性能。
在当前Gen1.1版本下,OISA支持超节点内部任意GPU卡之间的点对点读写互联带宽达到896GB/s,每个OISA-Switch芯片支持128个端口,交换容量为51.2T。
据中国移动官方消息,中国移动未来将全力推动超节点算力集群创新联合体的发展,计划与产业界合作,首先实现基于OISA互联技术的32/64卡超节点产品的单层Switch条件下的落地,并加快128卡超节点产品的推出速度。