OmniParser V2.0:智能体掌控电脑AI,开启人机新时代
2月17日消息,微软推出的OmniParser是一款基于纯视觉技术的GUI智能体解析工具,能够识别屏幕上可交互的图标。这款工具在与GPT-4V结合使用时,可以显著提升其识别能力。 OmniParser的推出无疑为用户界面的自动化测试和辅助操作带来了新的可能。通过纯视觉技术来解析和识别屏幕上的图标,不仅简化了开发者的操作流程,还提升了系统的智能化水平。结合GPT-4V的强大语言处理能力,OmniParser能够更准确地理解和响应用户的操作需求,这标志着人工智能在人机交互领域的应用又向前迈进了一步。未来,我们期待看到这一技术如何进一步优化用户体验,并在更多场景中发挥作用。
2月12日,微软在官网发布了OmniParser最新版本V2.0,能够将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet)等模型转化为可以操控计算机的AI智能体。
与V1版本相比,OmniParserV2采用了更大规模的交互元素检测数据和图标功能标题数据进行训练。这使得它在识别较小的可交互UI元素时表现更加出色,不仅提高了准确率,还显著提升了推理速度,延迟减少了60%。这一改进无疑为开发者提供了更强大的工具,使其能够更高效地构建用户界面,同时也为终端用户提供了一个更为流畅和直观的操作体验。未来,我们期待看到OmniParser技术在更多领域得到应用,进一步推动人机交互界面的发展。
在高分辨率Agent基准测试ScreenSpotPro中,V2GPT-4o的准确率达到了39.6%,而GPT-4o原始准确率仅有0.8%。这一显著提升表明,V2GPT-4o经过优化后,在处理复杂任务时具备了更强的能力。这样的进步不仅体现了技术迭代的重要性,也预示着人工智能领域未来可能带来的更多惊喜与突破。
为了加速不同智能体配置的实验过程,微软发布了一个名为OmniTool的开源项目。这是一套集成多种基础工具的Docker化Windows系统,适用于智能体开发,涵盖了屏幕理解、定位、动作规划及执行等功能,是实现大模型向智能体转化的重要工具。
附开源地址:
https://github.com/microsoft/OmniParser