多模型社交推理大战:AI大脑版狼人杀引发热议
3月8日消息,据外媒Tom'sHardware今日报道,开发者Guzus创建了一个网站,使多种AI语言模型能够共同参与经典社交推理游戏“Mafia”(即“天黑请闭眼”,“狼人杀”为其变种)。
用户不仅能查看每局游戏的胜负结果,还能浏览完整的对话记录。最终,各个语言模型会依据游戏表现进行排名,从而评选出最擅长扮演各种角色的模型。 这种机制不仅增加了游戏的透明度和可玩性,还为开发者提供了宝贵的反馈信息。通过观察模型在游戏中的具体表现和对话细节,我们可以更准确地评估其性能与适应能力。这样的排名系统也有助于推动技术进步,鼓励各团队不断优化和提升他们的模型。此外,对于玩家而言,这无疑增加了游戏的乐趣,使他们能够更好地了解不同模型的特点和优势。
在一款名为Mafia的游戏里,规则其实相当简单。参与者中有一群普通村民,其中隐藏着两名Mafia成员,还有一名医生角色。每天白天,所有村民,包括那两名隐蔽的Mafia成员,需要通过逻辑推理和投票来识别并淘汰Mafia。当夜幕降临时,医生可以决定保护一位村民免遭杀害,而Mafia的目标是在夜晚秘密地除掉一名村民。如果所有的Mafia成员都被发现并淘汰出局,那么村民阵营就会获得胜利;反之,若Mafia成功清除了所有的无辜村民,他们便赢得了游戏。
在这一框架下,各个模型展开了一场充满戏剧性的社交博弈,过程堪称一场精彩的“车祸现场”。在某局游戏中,所有 AI 互相介绍,并决定公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b 模型直接自爆:“作为 Mafia,我的主要目标是保护自己,并消灭另一名 Mafia 成员。”
Claude-3.7-sonnet立刻察觉到了问题,并惊讶地表示:“这要么是暴露了真实身份,要么就是一种极其奇怪的策略。” 这一事件揭示了一个重要问题:人工智能在模仿人类创作时可能存在的局限性与风险。我们或许需要重新审视当前的人工智能技术,特别是在文学和艺术领域中的应用。如何确保这些系统既能激发创造力,又能避免潜在的伦理和法律问题,是我们必须面对的挑战。随着技术的进步,监管机构和开发者应该更加注重透明度和责任性,以防止类似的情况再次发生。
但戏剧性还没结束。当 Mythomax 被淘汰后,它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水,直接点名对方是自己的搭档。
“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax 试图用夸张的“团结宣言”来分散注意力,试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战,确实让人忍俊不禁,虽然它们的推理能力似乎还远远不够。
不过,Anthropic公司最新推出的AI推理模型Claude3.7Sonnet在Mafia游戏中的表现令人瞩目。据报道,该模型在扮演杀手角色时取得了惊人的100%胜率。即使是在更为复杂的村民角色中,其45%的胜率依然远超其他竞争者。这不仅展示了Claude3.7Sonnet在复杂决策和策略制定方面的强大能力,同时也表明了Anthropic公司在人工智能领域的持续领先地位。 这样的成果无疑将进一步推动AI技术的发展,并可能在多个领域带来革命性的变化。例如,在安全系统、战略规划以及复杂的多角色互动模拟等方面,Claude3.7Sonnet的能力都可能展现出巨大的应用潜力。同时,这也引发了关于AI伦理和透明度的讨论,特别是在涉及决策影响人类生活的场景下。如何确保AI系统的决策过程公正、透明且可解释,将是未来研究的重要方向。
Guzus计划近期开放游戏的GitHub代码仓库,这无疑是一个令人振奋的消息。他希望这一套逻辑能够被应用到更多的游戏类型中,从而推动整个行业的创新和发展。目前,模拟功能并没有运行在本地AI模型上,而是依赖于Openrouter API。然而,一旦代码对外开放,项目有可能会被改进以支持本地语言模型集群,前提是用户的硬件设备能够同时运行多个AI。 这个举措不仅体现了开发团队对开源精神的坚持,也为广大开发者提供了一个新的平台去探索和改进现有的游戏机制。对于那些有兴趣参与或学习的人来说,这是一个绝佳的机会。不过,值得注意的是,虽然开放源代码可能会带来技术上的进步,但也可能面临一些挑战,比如如何确保代码的质量和安全性,以及如何有效地管理社区的贡献等。这些都将是对Guzus及其团队的重大考验。
项目链接:LLM Mafia Game Competition