首页 > IT新闻 > 企业动态
发布日期:2024-12-16 11:12:24

Kimi视觉思考模型k1突破性更新:超越OpenAI o1和GPT-4o

未来思维引领者:Kimi视觉思考模型开创AI新纪元

智慧科技

   12月16日,国产大模型月之暗面Kimi今日发布了其视觉思考模型k1。该模型采用强化学习技术开发,具备端到端的图像理解和思维链功能,并将其应用范围从数学扩展到了更多的基础科学领域。

Kimi视觉思考模型k1突破性更新:超越OpenAI o1和GPT-4o

   k1已陆续上线最新版Kimi智能助手的Android和iPhone APP以及网页版kimi.com。

Kimi视觉思考模型k1突破性更新:超越OpenAI o1和GPT-4o

   在最新版的手机应用程序或网页版Kimi页面上,您可以找到Kimi视觉思考版功能,通过该功能您能够上传图片或拍照来体验这一独特功能。

Kimi视觉思考模型k1突破性更新:超越OpenAI o1和GPT-4o

   据了解,在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超越了全球标杆模型OpenAIo1、GPT-4o以及Claude3.5Sonnet。

Kimi视觉思考模型k1突破性更新:超越OpenAI o1和GPT-4o

   官方表示,K1模型在真正意义上实现了从输入到输出的完整图像理解和思考功能,能够直接处理用户提供的图像信息,并通过内部机制分析得出结论,无需依赖外部的光学字符识别(OCR)工具或其他额外的视觉处理模型。

   从模型训练的角度看,k1的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。

   k1的基础模型重点优化了字符识别能力,在OCRBench上得到903分的当前最好(state-of-the-art)结果,在MathVista-testmini、MMMU-val 和DocVQA基准测试集上分数分别为69.1、66.7和96.9,处于全球第一梯队水平。

   据介绍,k1的强化学习后续训练在数据质量和学习效率方面进行了进一步优化,在强化学习的规模化应用上实现了新的突破,这正是k1视觉推理模型在基准测试中获得行业顶尖成绩的关键因素。

   月之暗面承认,在内部测试过程中,他们也发现了K1视觉思考模型的一些局限性,比如在分布外泛化能力、处理更复杂问题时的成功率、在高噪声环境下的准确率以及多轮问答的效果方面,仍有很大的提升空间。

   在某些应用场景和泛化能力方面,K1模型相较于OpenAI的O1系列模型仍存在一定差距。

IT新闻最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有