超级AI玩家Claude 3.7:游戏高手背后的人工智能推理之谜
3月4日消息,加利福尼亚大学圣地亚哥分校的Hao人工智能实验室(HaoAILab)上周五进行了一项独特研究,将人工智能(AI)应用于经典游戏《超级马力欧兄弟》,以评估其性能表现。研究结果表明,在参与测试的AI模型中,Anthropic的Claude3.7表现出色,其次是Claude3.5。相比之下,谷歌的Gemini1.5Pro和OpenAI的GPT-4o表现较差。
此次实验所使用的并非1985年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中,并通过一个名为GamingAgent的框架与AI进行连接,从而让AI能够控制马力欧。GamingAgent由Hao人工智能实验室自主研发,它不仅向AI提供基本指令,比如“如果附近有障碍物或敌人,向左移动或跳跃以躲避”,还提供了游戏内的实时截图。随后,AI通过生成Python代码的形式来操控马力欧。 这种利用经典游戏作为测试平台的做法,无疑为人工智能的发展提供了一个有趣且富有成效的方向。通过让AI在这样一个充满挑战和不确定性的环境中学习,我们能够更清晰地了解AI在复杂决策和即时反应方面的能力。此外,GamingAgent框架的设计也体现了人工智能技术在游戏领域的广泛应用潜力,未来或许能为游戏设计和玩家体验带来革命性的变化。
据实验室介绍,该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是,实验发现像 OpenAI 的 o1 这样的推理模型(它们通过逐步思考问题来得出解决方案)表现不如“非推理”模型,尽管它们在大多数基准测试中通常表现更强。研究人员指出,推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中,时机至关重要,一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。
数十年来,游戏一直是评估AI能力的关键指标。不过,也有观点认为,不应简单地将AI在游戏中的表现等同于技术的实际进展。毕竟,游戏环境通常比现实世界更加简化和理想化,同时可以为AI提供理论上无限的数据支持。 这种观点提醒我们,在关注AI在游戏领域取得成就的同时,也要认识到游戏环境与复杂多变的真实世界的巨大差异。这并不是否定AI在游戏中的成功,而是强调我们需要更加全面地看待AI技术的发展及其实际应用潜力。
注意到,近期一些备受瞩目的游戏基准测试结果引发了OpenAI研究科学家、创始成员安德烈・卡帕西(Andrej Karpathy)所称的“评估危机”。他在X平台上发布的一篇帖子中表示:“目前我真的不清楚应该关注哪些AI指标。”他最后总结道:“因此,我现在真的不确定这些模型的实际表现究竟如何。”
尽管如此,至少我们还有机会欣赏AI操控马里奥游戏的过程,这种体验确实别具一格。 在我看来,这种现象不仅展示了人工智能技术的进步,也让我们得以窥见未来娱乐方式可能的发展方向。通过机器学习和算法优化,AI不仅能模仿人类玩家的行为模式,甚至能开发出新的游戏策略,为传统游戏注入新的活力。此外,AI操纵游戏还可能成为一种全新的观赏性体育项目,吸引众多观众的关注与喜爱。这种变化无疑拓宽了电子游戏的边界,使其不仅仅局限于玩家亲自上阵的乐趣,而是增加了旁观者从不同角度体验游戏魅力的可能性。