灵初智能首次突破全新领域,实现两小时内物品、场景全面泛化的科技奇迹!
近日,近日,Figure公司发布的端到端具身大模型Helix因其独特的分层架构而备受瞩目,这一设计使得模型在高频控制和高泛化能力之间达到了良好的平衡。几乎在同一时间,中国具身智能团队灵初智能也推出了其增强版的分层架构端到端VLA模型PsiR0.5,这是该团队在短短两个月内对去年年底发布的PsiR0版本进行的重大升级。 Helix和PsiR0.5的相继发布,不仅展示了技术领域的快速发展,也反映了具身智能领域正在经历一场重要的变革。这两款模型都采用了分层架构,这表明在解决复杂任务时,这种架构可能具有显著的优势。然而,不同团队的快速迭代也提示我们,在这个充满活力的技术领域里,竞争正在变得越来越激烈,未来的发展速度可能会更快,创新也将更加频繁。
本次发布的新模型在复杂场景的泛化性、灵巧性、思维链(CoT)以及长程任务处理能力方面都有了显著提升。尤其值得一提的是,它仅需Helix数据量的0.4%就能完成泛化抓取训练,在全球范围内实现了操作灵活性和训练效率的双重突破。 这一成就不仅标志着技术上的巨大飞跃,还意味着未来机器人和自动化系统在各种复杂环境下的应用潜力大大增加。随着模型的持续优化,我们有理由期待看到更多创新的应用场景出现,进一步推动科技的进步和行业的变革。
此外,灵初智能团队近期连续发表了四篇高水平论文,全面展示了他们在泛化抓取、堆叠场景下的物品检索、借助外部环境辅助抓取以及VLA安全对齐等方面的最新研究成果。这些成果充分体现了中国团队在具身智能领域的强大实力。
Psi R0.5 路径演进图
DexGraspVLA仅需两小时灵巧手抓取数据
轻松实现物品、灯光、场景泛化并实现真正 CoT
DexGraspVLA是首款专为灵巧手通用抓取设计的VLA(视觉-语言-动作)框架。经过少量训练后,该系统便能在多变环境中智能地展现出色的操作能力,能够如同人类一般迅速且精准地拾取各类物品。
DexGraspVLA 是一个融合视觉,语言和动作的层次化框架:
高层规划由预训练的大规模视觉语言模型(VLM)完成,该模型能够理解各种指令,并自主制定抓取方案。
· Low-level Controller:低层扩散策略通过实时视觉反馈,闭环掌握目标物体,智能涌现出灵巧操作能力。
该框架的核心在于利用现有的基础模型将多样的图像输入数据转化为域不变的表征,并整体训练底层的控制模型。
DexGraspVLA 框架图
从实验结果看,灵初智能仅使用了约 2 小时的灵巧手抓取数据(2094 条轨迹 x 3.5 秒 / 条 ÷ 60 秒 / 分钟 ÷ 60 分钟 / 小时 ≈ 2 小时),泛化到上千种不同物体,位置,堆叠,灯光,背景下成功抓取,而这个数据量仅仅是 Figure 的 0.4%,数据利用效率提高 250 倍!
同时,DexGraspVLA 相比现有方案还具有几项优势:
· 根据语言指令分辨出目标物体,处理堆叠场景下的目标物体的检索并抓取
这项工作的亮点在于其高效的抓取速度,所有的视频内容都未经加速处理,这在同类工作中显得尤为突出。此外,它具备出色的闭环姿态矫正与重抓取能力(ReGrasp)。这种技术不仅提高了操作的精确度和效率,还大大减少了因错误抓取而造成的延误和资源浪费。在当前的技术环境下,这样的性能表现无疑为相关行业树立了新的标杆,也预示着未来自动化操作领域的发展方向。
人脑具备长程推理能力:能够自主推断抓取顺序并依次取出所有物品。
DexGraspVLA在面对光照变化、背景干扰以及物体姿态时展现出了极强的鲁棒性和泛化能力,这使得机器人的灵巧抓取技术达到了接近人类的水平。这一进展不仅展示了人工智能在感知和操作复杂环境方面取得的重大突破,还预示着未来机器人将在更多实际应用场景中发挥关键作用,比如家庭服务、医疗辅助乃至危险环境下的作业等。这无疑为智能机器人技术的发展开辟了新的道路,并且有望在未来几年内进一步缩小机器人与人类操作之间的差距。
基于预训练的大规模模型:利用自然语言与人类进行互动,具备高度智能的长程推理能力,能够自主解析人类的话语并推断任务需求。因此,它可以一次性设定多个抓取目标,在复杂的操作流程下实现自动化的物品分拣或清理工作。
DexGraspVLA 仍然会自动分析当前姿态偏差,通过细微调整腕关节和手部角度重新尝试抓取,实现非常鲁棒且高效的抓取能力,达到极强的泛化能力。
Retrieval Dexterity
堆叠场景中的高效物体检索策略
强化学习底层驱动,简单 reward 涌现复杂动作
在大多数实际场景中,物品往往以无规则、堆叠的方式摆放。传统方法要求机器人逐件搬开遮挡物,不仅耗时,还对机器人自身抓取能力提出了很高的要求。
为了解决这一挑战,灵初智能研发了一种利用强化学习的物体检索方法——RetrievalDexterity,有效提升了在堆叠场景中的物体检索与识别效率。
在RetrievalDexterity系统中,开发团队选择了一条独特的路径,他们并未依赖于真实的机器人数据进行训练。相反,灵初团队利用仿真环境中的强化学习技术进行了大规模的训练。通过在虚拟环境中生成各种复杂的堆叠场景,模型得以逐步优化,直到能够自主完成有效的检索任务。随后,这些经过训练的操作被应用到现实世界中的机器人上,并成功地应用于复杂的实际环境中。 这一创新方法不仅展示了仿真技术的强大潜力,还为机器人技术的发展开辟了新的可能性。通过这种方式,研究人员能够在不依赖大量真实设备的情况下,快速迭代算法并提升性能。这不仅降低了研发成本,还提高了训练效率。此外,这种方法也避免了在实际环境中可能出现的风险和不确定性,确保了系统的稳定性和可靠性。总体而言,这种基于仿真环境的训练策略为未来的机器人技术和自动化解决方案提供了宝贵的经验和启示。
Retrieval Dexterity 框架图
从杂乱堆叠物体中快速取出目标物体
在超过 10 种不同形状、大小的生活物品测试中,Retrieval Dexterity 展现出了优秀的性能,不仅能够高效完成训练过的物体的检索任务,还能将检索能力泛化到未见过的新物体上。
效率对比传统方法提升明显
与人为设定的动作相比,RetrievalDexterity在各种场景中的平均操作步骤减少了38%。相较于模拟的“将所有物体抓起并放开”的方法,该技术更是将步骤数量平均减少了90%。这种效率的显著提升主要归功于多指灵巧手可以直接与遮挡物互动,并随时移动它们,而无需逐一清除遮挡物。
ExDex:借力外部环境
抓取 “不可能” 物体
外部灵活性方案应对机器人末端执行器物品超限问题
当物体的底部尺寸大于机器人末端执行器的最大开合范围时,传统的抓取方法通常难以应对,这种情况在商场等商业环境中尤为突出。为了解决这个难题,灵初智能推出了ExDex——一种采用外部灵巧性(extrinsic dexterity)技术的新颖抓取方案。
ExDex系统通过利用环境特征来执行非夹持式操作,借助多指灵巧手的高度灵活性和强大的操作能力,实现了更为丰富和复杂的环境交互。这种技术不仅展示了机器人在复杂任务中的巨大潜力,还为未来的自动化应用开辟了新的可能性。它有望在工业生产、医疗手术乃至家庭服务等多个领域带来革命性的变化,极大地提高了工作效率和生活便利性。
强化学习带来超越人类遥操作水平的灵巧操作
通过强化学习,ExDex 涌现出自主制定策略的能力,借助周围环境抓取那些无法直接抓取的物体。例如,机器人可以将物体先推到桌面边缘或墙体边缘,再利用这些环境特征完成抓取任务。这种操作通过传统的遥操作方式几乎无法实现,充分体现了强化学习的强大优势。
在对数十种不同家居物品进行广泛实验后,ExDex证明了其卓越性能以及对新物体的强大泛化能力。不仅如此,ExDex还成功地将仿真训练的策略无缝应用于真实机器人上,实现了从虚拟环境到实际操作的高效转换。这不仅标志着技术领域的一大进步,也预示着未来智能家居设备的发展方向。这种从仿真到现实的顺利过渡,为未来的机器人技术应用提供了新的可能性,展现了人工智能与机器学习技术结合的无限潜力。
SafeVLA:人机安全交互的 “守护神”
当下,近期,具身智能机器人频频引发关注,从春晚上表演舞蹈的Unitree人形机器人,到波兰街头有人带着机器狗散步的新奇画面,都展示了人机交互的巨大潜力。然而,安全问题同样需要引起重视。视觉-语言-行动模型(VLAs)在推动机器人技术进步的同时,也隐藏着一定的安全隐患。
左图展示了传统视觉语言动作(VLA)模型在执行抓取任务时常见的三种不安全行为:一是对非目标物体造成严重破坏,二是由于目标识别错误而错误地使用危险物品,三是操作过程中与危险物体发生不当互动。右图则通过具体的导航路径示例,进一步揭示了传统VLA模型在导航过程中存在的三种潜在风险。 这种现象凸显了当前技术在实现人机协作方面的局限性。虽然传统VLA模型在许多方面表现出色,但在处理复杂环境或执行高风险任务时仍存在明显的安全隐患。未来的研究需要更深入地探讨如何提升模型的安全性能,以确保其在实际应用中的可靠性和安全性。此外,加强算法训练和引入更多样化的数据集也是提高系统鲁棒性的关键。
本周,北京大学PAIR-Lab团队与灵初智能合作,共同发布了具身安全模型SafeVLA。这一创新模型通过强化安全对齐技术,使机器人在复杂的环境中能够更加安全高效地完成任务,并且在面对各种干扰时表现出极高的鲁棒性。这无疑为机器人技术的应用开辟了新的道路,特别是在需要高度可靠性的领域,如家庭服务、医疗健康等,SafeVLA模型有望显著提升机器人的安全性与实用性。
SafeVLA将“以人为本”的理念深植于其核心价值观中,与传统机器人仅关注任务完成不同,它始终将人类的安全置于首位。在技术层面,SafeVLA引入了约束马尔可夫决策过程(CMDP)框架,将实际操作中的安全约束融入到仿真环境中进行大规模采样。这一创新使SafeVLA在确保安全性和提高任务执行效率方面实现了显著进步,分别提升了83.58%和3.85%。这充分展示了SafeVLA在实现安全与效率均衡方面的杰出能力。
我们团队正在开发一个全新的仿真环境Safety-CHORES,该环境集成了安全约束功能,并允许用户自定义规则,且代码全部开源,这无疑为全球的研究人员和开发者带来了极大的便利。此外,SafeVLA在12项分布外(OOD)测试中表现出色,无论是在光照变化、材料差异还是复杂环境干扰下,都能保持稳定的性能,显著优于其他模型。