首页 > 人工智能 > 人工智能
发布日期:2025-02-17 11:30:38

微软发布全新版本的开源工具 OmniParser V2.0,助力DeepSeek等智能体秒变操控电脑AI

OmniParser V2.0:智能体掌控电脑AI,开启人机新时代

   2月17日消息,微软推出的OmniParser是一款基于纯视觉技术的GUI智能体解析工具,能够识别屏幕上可交互的图标。这款工具在与GPT-4V结合使用时,可以显著提升其识别能力。 OmniParser的推出无疑为用户界面的自动化测试和辅助操作带来了新的可能。通过纯视觉技术来解析和识别屏幕上的图标,不仅简化了开发者的操作流程,还提升了系统的智能化水平。结合GPT-4V的强大语言处理能力,OmniParser能够更准确地理解和响应用户的操作需求,这标志着人工智能在人机交互领域的应用又向前迈进了一步。未来,我们期待看到这一技术如何进一步优化用户体验,并在更多场景中发挥作用。

   2月12日,微软在官网发布了OmniParser最新版本V2.0,能够将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet)等模型转化为可以操控计算机的AI智能体。

   与V1版本相比,OmniParserV2采用了更大规模的交互元素检测数据和图标功能标题数据进行训练。这使得它在识别较小的可交互UI元素时表现更加出色,不仅提高了准确率,还显著提升了推理速度,延迟减少了60%。这一改进无疑为开发者提供了更强大的工具,使其能够更高效地构建用户界面,同时也为终端用户提供了一个更为流畅和直观的操作体验。未来,我们期待看到OmniParser技术在更多领域得到应用,进一步推动人机交互界面的发展。

   在高分辨率Agent基准测试ScreenSpotPro中,V2GPT-4o的准确率达到了39.6%,而GPT-4o原始准确率仅有0.8%。这一显著提升表明,V2GPT-4o经过优化后,在处理复杂任务时具备了更强的能力。这样的进步不仅体现了技术迭代的重要性,也预示着人工智能领域未来可能带来的更多惊喜与突破。

   为了加速不同智能体配置的实验过程,微软发布了一个名为OmniTool的开源项目。这是一套集成多种基础工具的Docker化Windows系统,适用于智能体开发,涵盖了屏幕理解、定位、动作规划及执行等功能,是实现大模型向智能体转化的重要工具。

   附开源地址:

   https://github.com/microsoft/OmniParser

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有