GO-1:智能革新,未来即在眼前
3月10日消息,备受关注的“稚晖君”创业项目智元机器人今日发布了首个通用具身基座模型——智元启元大模型(GenieOperator-1)。这一创新性的ViLLA架构,融合了VLM(多模态大模型)与MoE(混合专家)技术,使机器人能够通过分析人类视频来学习,并实现小样本快速泛化。这不仅显著降低了具身智能的门槛,还成功地将其应用于智元多款机器人本体上。 这一进展无疑为机器人领域带来了新的突破,展示了在人工智能技术领域的巨大潜力。ViLLA架构的提出不仅提高了机器人的自主学习能力,也使得更多人能够轻松地参与到具身智能的研究与开发中。未来,随着这种技术的进一步成熟和普及,我们有理由相信,机器人将在更多应用场景中展现出更加出色的表现。
2024年底,智元推出了AgiBotWorld,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBotWorld,智元今天正式发布了智元通用具身基座大模型GenieOperator-1(GO-1)。 这一举措标志着在具身智能领域取得了重要突破。AgiBotWorld数据集的庞大体量和广泛的任务覆盖范围为人工智能的发展提供了坚实的基础。而GenieOperator-1的推出,则意味着我们离真正实现通用机器人助手的目标又近了一步。这一技术进步不仅有助于推动机器人技术的发展,还可能在医疗、教育、家庭服务等多个领域带来革命性的变化。未来,我们可以期待看到更多创新应用的出现,这无疑会极大地丰富我们的生活。
它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由多模态大模型VLM(Vision-Language Model)与MoE(Mixture of Experts)构成:
通过大规模互联网图文信息,VLM获得了对通用场景的认知和语言理解能力。
MoE中的LatentPlanner(隐式规划器)通过分析大量的跨领域和人类操作视频,成功地获得了广泛而深入的动作理解能力。这一技术进步不仅展示了人工智能在理解和模拟复杂人类行为方面的巨大潜力,还预示着未来在自动化、机器人技术以及虚拟助手等领域有着广阔的应用前景。 此技术的发展标志着我们正逐步跨越仅能处理简单任务的阶段,迈向能够执行更加复杂和多变任务的新时代。随着算法和模型的不断优化,未来的AI系统将能够更好地理解和适应各种环境和情境,为人类带来更高效、更智能的服务和支持。这无疑将极大提升人们的生活质量和工作效率,同时也提出了关于技术伦理和社会影响的新议题,需要我们在推动技术创新的同时,积极思考如何构建一个和谐共存的人机社会。
MoE中的ActionExpert(动作专家)通过整合百万真实设备数据,提升了其精细化动作执行的能力。
通过ViLLA架构,智元机器人在五种不同复杂度的任务上对GO-1进行了测试,结果表明GO-1的成功率显著高于现有的最优模型,平均成功率从46%提升到了78%,增幅达到了32%。“倒水”、“清理桌面”以及“补充饮料”这三个任务中,GO-1的表现尤其出色。 这一结果不仅展示了ViLLA架构在处理复杂任务方面的强大能力,同时也标志着机器人技术在实际应用中的重要进步。尤其是在服务行业,如餐饮业和酒店管理中,这种高成功率意味着机器人可以更高效地完成日常任务,提高工作效率和服务质量。此外,这项技术的进步也可能为未来家庭自动化提供新的可能性,使得机器人在家庭环境中的应用更加广泛和实用。
此外智元机器人还单独验证了 ViLLA 架构中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)。
GO-1大模型凭借其强大的能力,不仅能够整合人类与多种机器人的数据,还能广泛应用于各种环境和物体中,迅速掌握新任务和技能。此外,它还具备将这些能力部署到不同类型的机器人上的灵活性,从而实现更广泛的落地应用。在实际使用过程中,GO-1大模型还可以通过不断的实践和反馈进行快速迭代和优化。 这种高度灵活且能自我进化的技术无疑为未来的智能机器人领域带来了新的希望。它不仅提高了机器人的自主性和适应性,也为人类提供了更加高效和便捷的服务。然而,随着技术的进步,我们也需要关注其可能带来的伦理和社会问题,确保技术的发展能够惠及每一个人。
这一系列的特点可以归纳为 4 个方面:
人类视频学习:GO-1大型模型能够融合网络视频和真实人类演示进行学习,提升模型对人类行为的认知能力,从而更有效地服务于人类。
GO-1大模型展现出卓越的泛化性能,即使在极少量数据乃至无样本的情况下,也能有效适应新的环境和任务,从而大幅降低了具身模型的应用难度,使其后续训练成本显著降低。
一脑多形:GO-1大型模型是通用机器人策略模型,能够实现在各种机器人形态间的迁移,迅速适应不同的本体结构,促进群体智能提升。
持续进化:GO-1大模型结合智元的数据回流系统,能够从实际操作中遇到的问题数据中不断学习和进步,使模型越来越智能。这种技术的进步不仅展示了人工智能领域的快速发展,也预示着未来AI在解决复杂问题时将更加得心应手。通过这样的迭代学习过程,GO-1有望在各种应用场景中展现出更卓越的表现,为用户提供更加精准和高效的服务。
智元机器人还预示了下一代具身智能机器人的到来,但未公布具体上市时间。
附论文链接:
https://agibot-world.com/blog/agibot_go1.pdf