揭开神秘面纱:Kimi颠覆性发布,融合30亿与160亿参数的超级模型引爆人工智能领域
2月24日消息,月之暗面Kimi近日发布了“Muon可扩展用于大型语言模型训练”的新技术报告,并宣布推出了“Moonlight”:一个基于Muon训练的30亿至160亿参数混合专家模型(MoE)。该模型使用了5.7万亿个tokens进行训练,在较低的浮点运算次数(FLOPs)下实现了更佳的性能,从而提升了帕累托效率边界。
月之暗面称,团队发现Muon优化器可以通过加入权重衰减和精细调节每个参数的更新幅度等方式进行扩展,这使得Muon在训练深度学习模型时表现出了显著的优势。 Muon优化器的这些改进不仅提高了训练效率,还增强了模型的泛化能力。通过这种方式,Muon优化器能够在保持模型性能的同时,有效避免过拟合现象的发生。这无疑为深度学习领域提供了一种新的工具,有望在未来的研究中发挥重要作用。 Muon优化器的这些亮点显示了其在实际应用中的潜力,特别是在处理复杂数据集和构建更为精确的预测模型方面。随着进一步的研究和发展,Muon优化器可能会成为机器学习工程师和研究人员的重要工具。
这些技术创新让Muon在大规模训练中能够迅速上手使用,无需复杂的超参数调整过程。根据扩展法则的实验结果,Muon在计算效率方面达到了令人瞩目的水平,其表现大约是经过精心计算以实现最优训练效果的AdamW算法的两倍。这种显著的提升无疑为深度学习领域的研究者们提供了一个强大的新工具,大大降低了实践中的门槛,并可能推动该领域向着更高效、更便捷的方向发展。
本次论文所使用的模型为Moonlight-16B-A3B,总参数量为15.29B,激活参数为2.24B,其使用Muon优化器,在5.7TTokens的训练数据下获得上述成绩。Moonlight-16B-A3B的卓越表现证明了其在大规模语言模型中的潜力。特别是在如此庞大的训练数据集下,该模型能够有效地提取和学习关键特征,展现出极高的性能水平。这不仅标志着技术进步的一个重要里程碑,也为未来的研究提供了新的方向和可能性。
我们的模型不仅超越了现有的Pareto前沿,还以显著减少的计算量实现了优于先前模型的性能,在训练所需的浮点运算次数上有了大幅降低。
我们发布了一个经过优化的分布式Muon实现版本,特别注重了内存使用和通信效率。此外,还提供了预训练模型、经过指令调整的模型以及中间训练检查点,以期为未来的科研工作提供有力的支持。 这个开源项目无疑为研究社区带来了新的活力,尤其是在处理大规模分布式计算任务时。通过优化内存使用和通信效率,该项目不仅提升了运算速度,还降低了硬件成本,这对于推动高性能计算技术的发展具有重要意义。同时,提供多种模型和检查点也大大降低了研究人员进入该领域的门槛,使得更多人能够参与到这一前沿科技的研究中来。
附有关链接如下:
GitHub:点此前往
Hugging Face :点此前往