未来思维引领者:Kimi视觉思考模型开创AI新纪元
智慧科技
12月16日,国产大模型月之暗面Kimi今日发布了其视觉思考模型k1。该模型采用强化学习技术开发,具备端到端的图像理解和思维链功能,并将其应用范围从数学扩展到了更多的基础科学领域。
k1已陆续上线最新版Kimi智能助手的Android和iPhone APP以及网页版kimi.com。
在最新版的手机应用程序或网页版Kimi页面上,您可以找到Kimi视觉思考版功能,通过该功能您能够上传图片或拍照来体验这一独特功能。
据了解,在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超越了全球标杆模型OpenAIo1、GPT-4o以及Claude3.5Sonnet。
官方表示,K1模型在真正意义上实现了从输入到输出的完整图像理解和思考功能,能够直接处理用户提供的图像信息,并通过内部机制分析得出结论,无需依赖外部的光学字符识别(OCR)工具或其他额外的视觉处理模型。
从模型训练的角度看,k1的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。
k1的基础模型重点优化了字符识别能力,在OCRBench上得到903分的当前最好(state-of-the-art)结果,在MathVista-testmini、MMMU-val 和DocVQA基准测试集上分数分别为69.1、66.7和96.9,处于全球第一梯队水平。
据介绍,k1的强化学习后续训练在数据质量和学习效率方面进行了进一步优化,在强化学习的规模化应用上实现了新的突破,这正是k1视觉推理模型在基准测试中获得行业顶尖成绩的关键因素。
月之暗面承认,在内部测试过程中,他们也发现了K1视觉思考模型的一些局限性,比如在分布外泛化能力、处理更复杂问题时的成功率、在高噪声环境下的准确率以及多轮问答的效果方面,仍有很大的提升空间。
在某些应用场景和泛化能力方面,K1模型相较于OpenAI的O1系列模型仍存在一定差距。