神奇时刻!OpenManus团队短短3小时,奇迹还原失落的手稿!
就在前天,Manus在国内媒体上迅速走红,它自称为“全球首款通用AI智能体”。
官方也晒出了几十个Demo,供大家玩赏。
网友们对某款新产品的效果感到十分惊艳,纷纷想要尝试,却发现试用需要邀请码。我们询问了几位AI领域的专家,他们表示自己并未使用过该产品,也没有听说过自己的同行中有谁使用过。“目前看来,似乎只有部分媒体在使用这款产品。” 这种现象引发了我对当前科技产品推广模式的一些思考。一方面,限量提供访问权限确实能够制造一定的神秘感,增加产品的吸引力;另一方面,这也可能让普通用户感到被排斥在外,从而产生负面情绪。希望未来能有更多的公平机会,让更广泛的人群能够体验到这些前沿技术的魅力。
到达这个阶段就需要格外小心了,没有经过大规模公开测试验证,也没有得到专家实名推荐的技术或产品(例如ChatGPT、NotebookLM、DeepSeek等都已有相关验证),其实际能力始终值得怀疑。
从产品体验来看,Manus尽管表现突出,但许多人并不买账,因为制作PPT、编写HTML、进行Python数据分析、生成Excel表格以及搜索等功能,目前各大通用模型已经能够胜任。即使Manus声称自己比OpenAI的DeepResearch更为出色,但这与Cursor声称自己比Claude更为优秀有何不同?两者之间的可比性实际上是有所偏差的。
功能上,Manus是一款集成了计算机使用、虚拟机管理和多智能体协同工作的综合性平台。它在技术实现上依托于Claude模型的强大生成能力,并通过开源模型进行后训练以增强其规划能力。此外,Manus还融合了多种预设的智能代理,根据设定的工作流程创建待办事项列表、部署虚拟机环境、调用所需工具、整合结果、执行自我检查并最终输出成果,以此高效完成各项任务。 我认为Manus的推出标志着软件开发领域的一大进步,特别是在自动化和智能化方面。它不仅简化了许多繁琐的步骤,而且还能提高工作效率和准确性。对于需要处理大量重复性任务的企业和个人而言,Manus无疑是一个强大的助手。同时,它也展示了人工智能在实际应用中的巨大潜力,预示着未来可能会有更多类似的创新工具出现,进一步推动科技的进步。
所以,Manus技术在实现上确实具有一定的复杂性,但从创新角度来看,它并未带来太多突破性的进展。不过,由于其功能的多样性和广泛性,开发工作量相当巨大。业内专家普遍认为,Manus很可能是采用了基于MCP协议的聚合模式来实现这些功能。这种设计虽然增加了工程难度,但也为系统的稳定性和兼容性提供了保障。总体而言,Manus的技术路线体现了当前工业界在追求多功能与高效率之间的一种平衡策略。尽管存在一些技术上的挑战,但其潜在的应用前景仍然值得期待。
过去,Agent主要在专业领域进行深入研究,而Manus则通过工程上的极致整合以及酷炫且易于上手的用户界面设计,让Agent产品能够跨越专业界限,进入更广泛的市场。 这一创新举措不仅大大降低了使用门槛,还使得原本局限于特定领域的技术变得更为普及。对于广大非专业人士而言,这无疑是一个福音,意味着他们可以更容易地接触到并利用这些先进技术,推动了科技的大众化趋势。同时,这也对传统Agent产品的定位提出了新的挑战,促使行业内的企业思考如何更好地适应这一变化,以满足日益多样化的市场需求。
总有人说,套壳到极致即是成功,也体现了其价值。至少根据Manus展示的视频来看,确实是这样的。
既然有价值,那么很快就会有人跟上,这不,为了实现 Manus 的价值,MetaGPT 团队花费了 3 小时开发了 OpenManus 并开源,无需邀请码就能使用。
项目地址https://github.com/mannaandpoem/OpenManus<;/p>
在项目的演示视频中,输入提示词“对Karpathy的网站(https://karpathy.ai/)进行详尽的SEO审查,并提交一份全面的优化报告,其中应包含具体的改进措施和建议。”
接下来,OpenManus 会展开思考,拆分执行步骤
检查网站,收集基本信息;
分析关键SEO要素;
检查 SEO 技术方面的问题;
整理优化建议;
接下来就是一步一步地执行任务了。
可以看到,展示的视频结果相比Manus显得较为简单且信息量较少,OpenManus目前的功能还比较基础。不过,研发团队已经公布了后续的开发计划,按照这个计划,OpenManus最终全面达到Manus的水平应该不成问题。
更优的规划系统
实时演示功能
运行回放
强化学习微调模型
全面的性能基准测试
OpenManus 是怎么来的?
两个月前的一次边吃饭边头脑风暴的过程中,我们想到,一个极简的 Agent 框架,应该是可插拔的 Tools 和 System Prompt 的组合,之后我们沿着这个思路,写了一个完整的 Agent 迷你框架。
前天晚上看到 Manus 时,凌晨就和同事商量,下班后的晚上就可以搞一个,应该 3 小时够了。
为什么要采用可插拔的 Tools 和 System Prompt?
决定一个ReActAgent(推理与行动代理)效果的核心在于Prompt(提示信息)和Action(行动)。Prompt指导了Agent的整体行为逻辑,而Tools则界定了Agent的行动范围。这两者的定义共同构成了一个完整的ReActAgent。
可插拔的优势在于其可组合性,我可以将多种不同应用场景下的工具整合起来,构建出一个全新的智能代理。这一过程定义简单,无需编写复杂的内部逻辑,只需调整动作空间(即工具集)。工具本身就应该具备这种可组合的特性,而我们的任务则是进一步优化这一抽象过程。目前,Hugging Face的Smolagents也采用了类似的思路。
Manus之所以让人感到新奇,主要是因为BrowserUse和ComputerUse的应用,因此只要给Agent提供这两个工具,就能实现相应功能。
OpenManus 在实现中,有哪些关键技术挑战?
在OpenManus的开发过程中,前端界面的实现至关重要。Manus之所以出色,是因为其产品展示非常吸引人。我原本计划使用Streamlit来编写前端,因为它可以方便地进行类似展示。然而,我发现Streamlit的底层技术与BrowserUse存在冲突,因此最终选择了Gradio。尽管如此,在信息展示方面仍存在问题,尤其是在实时更新上无法满足需求,最后还是决定采用日志记录的方式,在命令行中进行展示。
如何高效地重现和改进PlanningTool的使用同样至关重要,这样才能最大程度地发挥Agent在规划和工具使用上的潜能,挖掘其性能极限。
Manus的应用实例凸显了代理在执行线性任务规划时的卓越性能,而OpenManus则需攻克如何构建更为复杂的规划架构(例如采用DAG有向无环图来描绘任务间的依赖关系),以及如何使代理能够动态调整规划以应对变动的需求。这不仅对技术实现提出了挑战,也涉及到算法设计及智能代理的自我适应能力。
目前OpenManus的规划设计依然遵循着传统的线性模式,这一点与Manus相同。然而,考虑到现实世界中的任务往往更加复杂,采用有向无环图(DAG)的规划方法或许能提供更高的准确性。DataInterpreter项目在这方面已经展示出了它的优势。 这种设计上的差异凸显了不同技术路径的选择可能会对实际应用效果产生显著影响。虽然线性规划在某些简单场景下可能足够高效,但在面对复杂多变的现实任务时,DAG规划的优势就显现出来了。这不仅提高了系统的灵活性和适应能力,也使得处理效率得到提升。因此,OpenManus未来是否考虑引入或部分采用DAG规划方法,以更好地应对复杂任务,值得进一步关注。
听起来OpenManus的计划似乎已经有了要超越Manus的趋势,你们对于这款产品有哪些期待呢?
OpenManus 前期目标打算达到原始 Manus 的相同的效果,后续会不断优化 Computer Use、Browser Use 和 Planning Use,以及工具调用的能力,从而超越 Manus。
Manus产品的交互设计确实表现突出,其在技术融合方面有很多亮点,特别是对后训练技术的应用,以及在流程设计上的创新,如规划和多智能体系统的构建,这些都十分值得学习。我们正在深入研究其具体实现细节。关于OpenManus,我们尚未进行专门的效果调整,目前看来其实现效果较为普通。未来的发展主要依赖于开源社区成员的贡献,我们期待通过这种开放协作的方式能够激发更高层次的智能涌现。 这样的发展路径不仅展示了技术创新的力量,还体现了开源精神在推动科技发展中的重要作用。通过共享知识和技术,不仅可以加速技术进步,还能促进跨领域合作,为更多创新提供可能。这也提醒我们在追求技术卓越的同时,不应忽视合作与共享的价值。
好了,到这里知危编辑部与MetaGPT团队的沟通就告一段落了,我们也可以期待一下OpenManus未来的表现。 随着技术的不断进步,这次知危编辑部与MetaGPT团队的合作无疑为我们展示了人工智能在新闻编辑领域的巨大潜力。通过这次合作,双方不仅探索了如何更高效地处理信息,还为未来的新闻报道方式提供了新的视角。我们有理由相信,OpenManus在未来将能够更好地服务于新闻行业,提高信息处理的效率和质量。同时,这也提醒我们在享受科技带来的便利的同时,也要关注其可能带来的挑战,比如信息的真实性和隐私保护等问题。
最后,或许我们可以探讨一下到底什么应该是好的 Agent ?
Manus具备不少优点和亮点,然而其中也不乏夸大的成分。在实际使用过程中,用户们依然能够发现Manus存在诸多问题,例如使用了错误的数据、引用来源不准确以及表格读取错误等。尤其是在处理某些复杂情况时,幻觉问题依旧显著。 这种现象表明,尽管Manus在某些方面表现突出,但它仍需进一步完善其算法和技术以减少错误率。对于用户而言,在采用Manus进行重要决策或研究之前,务必仔细验证其提供的信息和结果,以免因技术局限而造成误导。此外,开发团队也应更加重视这些问题,并及时采取措施加以改进。
Agent应用程序的一大弊端在于,自动化执行过程越复杂,错误的发现和原因的排查就变得越困难。此外,Agent的执行需要通过多个LLM,每个LLM产生的幻觉性误差会不断叠加,导致最终结果的准确性大幅下降。例如,即使每个LLM的准确率为95%,但若连续经过10个LLM,最终的整体准确率可能会骤降至大约60%左右。
在全面拥抱 Agent 之前,我们首先还是得多关注一下,目前市面上的通用大模型,它们的幻觉率仍然不是一般的高。
所以,要打造一个真正实用的智能代理,我们依然需要在提升大型模型的基础能力上下功夫。如果内核不够强大,仅仅在外围做过多的包装是没有意义的。
与此同时,我们需要强调的是,在追求Agent技术的过程中,必须坚持实用主义原则,不是所有的问题都适合用Agent来解决。
Devin最近也被揭露错误率非常高且错误方式毫无规律,甚至不如使用Cursor逐步操作,再加上之前的数据演示造假事件,Agent产品的激进策略现在受到了越来越多的质疑。
与此同时,Agent的一个主要问题是,步骤拆解越细,token的消耗量就越大。如果对所有任务都无脑使用Agent,对于企业的成本控制来说存在极大的风险。
Agent的核心作用在于工作流编排,对于简单的任务,其实并不需要Agent的介入,否则反而会延长客户的等待时间。
Anthropic曾分享过构建智能体的基本原则:“简单为王,实用至上”。他们认为,能够通过API解决的问题就不需要使用复杂的工作流,而能够用工作流完成的任务则不需要借助智能体来实现。这种理念不仅体现了技术应用中的效率优先原则,也提醒我们在追求智能化的同时要避免过度复杂化。在实际操作中,遵循这一原则不仅可以降低系统的维护成本,还能提高整体的运行效率。
这些都是手段,哪个不能交付结果呢?
Agent本质上仍属于一个已定义的产品范畴,因此它与那些具备不确定潜力的技术(如LLM)不同。LLM的潜在价值,例如推理能力的发现和增强,可能会带来不可预知的风险,这使得押注LLM显得更有吸引力但也更加冒险。 在当前科技快速发展的背景下,我们不难发现,虽然Agent在具体应用场景上具有明确的目标和功能,但其局限性也显而易见。相比之下,LLM这类技术由于其未知的可能性,可能蕴含着更大的价值和挑战。这种不确定性既带来了机遇,也伴随着风险。因此,在选择投资或研究方向时,决策者需要权衡其中的利弊,谨慎行事。 这样的观点反映了在面对新兴技术时,我们需要既看到其潜在的巨大价值,也要充分认识到伴随而来的不确定性与风险。
在回顾过去的发展时,我们应该更加注重开源社区中的新技术,例如阿里巴巴在Manus发布的同一天开源的QWQ-32B模型。正如前文所述,在追求高效智能代理(Agent)的过程中,我们应当特别关注模型上的突破与创新。 这种持续的技术进步不仅体现了科技界的活力,也反映了企业对于推动行业发展的责任感。通过开源这样的方式,不仅可以加速技术创新的步伐,还能促进全球开发者之间的合作与交流,共同推动人工智能领域向前发展。