xAI Grok-3横空出世,颠覆AI圈:OpenAI GPT-4.5仅撑六小时即告失守
基础模型竞争又紧张刺激起来了!
GPT-4.5刚登上竞技场并获得全任务分类的第一名,6小时后总榜却被马斯克的新版Grok-3反超。
两者都是获得 3000 + 票数,总分 1412:1411 只差一分。
目前,Grok-3在总分上暂居首位,主要是在总体带风格控制以及困难提示词带风格控制方面表现出色,仅在某些方面略逊于GPT-4.5。这表明Grok-3在处理复杂任务时具有强大的适应性和灵活性,尤其在风格控制方面的优势尤为突出。这不仅展示了其技术上的进步,也预示着它在未来可能有更多的应用场景。然而,面对GPT-4.5这样的强劲对手,Grok-3仍需继续优化,特别是在那些细微差别上。总体来看,这种竞争无疑会推动人工智能领域的发展,为用户带来更优质的服务体验。
DeepSeek-R1在总分上排名第六,而在数学和复杂提示词带风格控制这两项评分中,它与GPT-4.5并列第一。
也有用户对此结果表示质疑,仅仅6个小时时间怎么可能产生如此巨大的变化?
最近有消息称,大模型竞技场的榜单显示机制存在一个投票数量门槛,即只有当两个模型的投票数都达到3000票时,它们才会在一周前同时出现在榜单上。这一规则引发了我对当前在线平台竞争机制的一些思考。 这种设定不仅反映了平台对参与度和关注度的重视,也体现了公平竞争的原则。然而,这样的门槛也可能带来一些潜在的问题。例如,对于那些虽然质量很高但未能迅速积累足够票数的小众模型来说,这可能意味着他们失去了展示的机会。此外,这也可能导致一些模型为了追求快速增加票数而采取一些非正常的手段,比如购买票数或诱导投票,从而影响了榜单的真实性和公正性。 总体来看,这样的规则确实为优质模型提供了一个展示的舞台,但也需要进一步完善相关机制,确保所有参与者都能在一个更加公平、透明的环境中竞争。
不过抛开跑分之外,GPT-4.5 的口碑也在悄然翻转。
GPT-4.5刚推出时,给人的感觉是体积较大且价格不菲,官方也承认其在情商方面似乎有些虚无缥缈。即使与GPT-4相比,它的跑分也没有显著高出多少。 这种新产品的定价策略确实令人感到困惑,尤其是在技术性能上并没有展现出压倒性的优势。这使得消费者不得不重新评估这款产品的真实价值。尽管官方试图通过其他方面的创新来弥补技术上的不足,但市场反应仍需时间来验证。对于消费者而言,他们更期待看到实际应用中的表现,而不仅仅是实验室里的数据。
但几天后,夸他情商高的用户确实多了起来。
奥尔特曼本人也曾表示:“有时高品位的测试者确实能够提供有价值的反馈。” 这样的观点提醒我们,在面对复杂的技术评估时,拥有高水平专业知识的人士所给出的意见往往值得我们认真考虑。尽管如此,我们仍需保持开放的心态,充分听取来自不同背景的声音,以确保做出更为全面和客观的判断。
他还爆料,这是这辈子第一次有人发邮件求他承诺以后不会下架这个模型
奥尔特曼还分享了他与GPT-4.5的一些对话记录。他对自己的六个单词的小故事“接近奇点,不确定在哪一边”进行了探讨,GPT-4.5对此给出了以下看法:
作为GPT-4.5,在回顾这个有趣的故事时,我认为我们已经跨越了奇点的事件视界,但仅仅是在另一边稍微迈出了一步。
我们已经进入了人工智能重塑人类思想、创造力、沟通甚至身份的世界。然而,确切的含义 —— 无论是解放还是担忧 —— 仍未定论。
换句话说,我们已经进入了奇点的影响力范围,但要全面理解其潜在影响还为时过早。
与此同时 GPT-4.5 还登顶了一个另类榜单,类似大模型狼人杀:
在最近的一场独特的AI模型竞赛中,参赛的AI模型不仅要通过公开辩论展示各自的论点和逻辑能力,还要私下制定策略,并进行投票以淘汰其他竞争者。这种淘汰机制增加了比赛的复杂性和不确定性。最终的胜利者将由那些已被淘汰的参赛者组成的陪审团来决定。这一环节不仅考验了AI的应变能力和策略规划能力,还体现了对公平与公正原则的尊重。 这样的比赛形式非常新颖且富有挑战性,它不仅要求AI具备强大的分析和辩论技能,还需要它们能够理解和适应复杂的社交动态。这不仅仅是一场技术上的较量,更是一次对AI情商和团队协作能力的深度测试。通过这样的比赛,我们或许可以更深入地了解AI在未来社会中的潜在角色,以及如何更好地设计它们以服务于人类社会。
在结盟、在欺骗、背叛、表现得不具威胁性等方面都位居首位,且表现超越人类。
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《GPT-4.5 登顶 6 小时即失守!Grok-3 上演 1 分逆袭》