科技巨头华灯初次国产化尝试成功,DeepSeek V3 和 R1 模型正式亮相
2月4日,中科曙光国家先进计算产业创新中心有限公司发布消息称,海光信息技术团队已成功完成了DeepSeekV3和R1模型与海光DCU(深度计算单元)的国产化适配工作,并于近日正式上线。
在“光合开发者社区”的“光源”板块中,用户可以访问并下载所需的模型,或者直接登录光源的官方网站,通过搜索“DeepSeek”来获取相关信息。基于DCU平台,用户能够轻松地部署和使用这些模型。这种便捷的途径无疑为开发者们提供了一个强有力的工具,极大地促进了技术创新和项目实施的效率。它不仅简化了获取和使用模型的过程,还为开发者提供了更加丰富和多样化的选择,有助于推动整个行业的进步和发展。
据介绍,DeepSeekV3和R1模型同样基于Transformer架构,运用了Multi-HeadLatentAttention(MLA)和DeepSeekMoE两大核心科技。MLA通过大幅缩减KV缓存来显著降低内存使用,从而提升推理速度;DeepSeekMoE则借助辅助损失(auxiliary loss)实现专家任务的智能分配,进一步优化了模型的整体表现。
查询获悉,DCU是由海光信息研发的高性能GPGPU架构AI加速卡,专注于为行业用户提供自主可控的全精度通用AI加速计算解决方案。目前,DCU已经在科教、金融、医疗、政务、智算中心等多个领域实现了广泛应用。 从这一消息可以看出,中国在自主可控的高性能计算技术方面取得了显著进展。DCU的推出不仅提升了国内企业在人工智能领域的竞争力,也为各行各业提供了更为可靠的技术支持。特别是在当前国际形势复杂多变的情况下,拥有自主知识产权的高性能计算产品显得尤为重要。这有助于减少对国外技术的依赖,提升国家整体的信息安全水平。同时,DCU在多个行业的成功应用也表明,中国企业在技术创新方面正不断取得突破,未来有望在全球科技竞争中占据更加有利的位置。