Kimi的k1模型:揭秘视觉思考的奥秘
智慧科技
12月16日,月之暗面Kimi推出了视觉思考模型k1。该模型依托于强化学习技术,不仅支持从输入图像到输出结果的全流程处理,还引入了思维链技术,从而在数学之外的多个基础科学领域展现出强大的应用潜力。 这一创新成果无疑为人工智能领域注入了新的活力。Kimi的视觉思考模型k1不仅仅是一个技术突破,更是对未来智能系统发展方向的一种探索。它通过结合强化学习与思维链技术,使得机器能够更好地理解复杂图像信息,并将其应用于更广泛的科学领域。这不仅提升了人工智能在处理非结构化数据方面的能力,也为科研人员提供了更为强大的工具,有助于加速科学发现和技术进步的步伐。
月之暗面官方宣布,在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超越了OpenAIo1、GPT-4o和Claude3.5Sonnet。
据月之暗面官方消息,Kimi的新模型现已正式发布并上线。「Kimi视觉思考模型」k1版已逐步部署到最新版本的「Kimi智能助手」的Android和iPhone手机应用程序以及网页平台kimi.com上。用户现在可以在新版手机应用或网页版Kimi界面中找到「Kimi视觉思考版」,并通过拍照或上传图片来体验这一功能。
「Kimi视觉思考版」将全面展示推理思维链(CoT),使用户不仅能看到最终的答案,还能清晰地了解模型在得出答案过程中的全部思考步骤。
K1视觉思考模型的训练过程分为两个阶段:首先通过预训练获得基础模型,然后在此基础上进行强化学习后训练。K1的基础模型特别注重提升字符识别能力,在OCRBench上的得分达到了903分,这是当前的最佳表现。同时,在MathVista-testmini、MMMU-val和DocVQA基准测试集上,K1分别取得了69.1、66.7和96.9的分数。 这样的训练策略不仅显著提升了K1在字符识别方面的性能,也展示了其在处理复杂文本信息时的强大能力。值得注意的是,尽管K1在OCR领域已经取得了非常优秀的成绩,但在其他一些基准测试中仍有提升空间。这表明未来的研究可以进一步优化其在不同应用场景下的适应性和鲁棒性。总体而言,K1视觉思考模型为机器视觉和自然语言处理领域的研究和发展提供了新的思路和方向。
月之暗面指出,经过优化后,k1在强化学习后的训练不仅提升了数据质量,还显著提高了学习效率,在强化学习的规模化应用上实现了新的突破。
此外,科学界对模型能力的基准测试一直是一个重要挑战。鉴于市场上缺乏适用于基础科学学科的图形测试集,Kimi模型研发团队自主研发了一套名为ScienceVista的标准测试集。该测试集包含不同难度级别的数学、物理和化学题目的图片,并且在分布上尽可能贴近实际用户需求。为了促进行业发展,该测试集将向全行业开放,有需要的用户可以申请在许可范围内使用。
在内部测试中,月之暗面也发现了一些K1视觉思考模型存在的局限性,比如在分布外(out-of-distribution)的泛化能力、处理更复杂问题的成功率、应对更多噪声场景的准确度以及多轮问答的效果等方面,还有很大的提升空间。在某些场景和泛化能力方面,K1模型相较于OpenAI的O1系列模型仍有一定差距。