强势登顶!Qwen2.5-VL震撼发布,AI视觉巨头问鼎未来
1月28日消息,今日,阿里云通义千问发布全新视觉模型Qwen2.5-VL,推出了3B、7B和72B三种不同规模的版本。
其中,旗舰版Qwen2.5-VL-72B在13项权威测试中荣获视觉理解桂冠,成绩超越GPT-4o及Claude3.5。
官方介绍称,新版Qwen2.5-VL在解析图像内容方面更加精准,创新性地支持超过一小时的视频理解。它能够在视频中搜索特定事件,并对视频的不同片段进行关键点总结,从而迅速有效地帮助用户提取视频中的重要信息。
而且无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
Qwen2.5-VL不仅能够识别常见的物体,例如花朵、鸟类、鱼类和昆虫,还可以解析图像中的文字、图表、符号、图形以及布局结构。
此外,Qwen2.5-VL在OCR技术方面实现了显著进步,不仅提升了多场景、多语言以及多方向文本的识别与定位能力,还在信息抽取方面进行了大幅优化。这使得它能够更好地应对资质审核、金融商务等领域对数字化和智能化日益增长的需求。这项技术的进步无疑为相关行业带来了更高效、准确的解决方案,有望推动这些领域的工作流程更加顺畅,并提高整体工作效率。同时,这也预示着未来人工智能技术将在更多复杂场景中发挥关键作用,进一步促进各行各业的数字化转型。