探秘谷歌神秘利用Anthropic的Claude模型,Gemini AI再度升级!
智慧科技
12月25日消息,据TechCrunch披露的内部通信内容显示,参与优化谷歌Gemini人工智能模型的承包商正在将其答案与Anthropic的竞争产品模型Claude的输出结果进行对比。此举引发了关于谷歌是否获得了Anthropic的授权以用于此类测试的合规性担忧。
注意到,在当前科技公司纷纷致力于研发更为先进的AI模型之时,模型性能的评估一般依靠行业基准测试完成,而不是通过承包商花费大量时间去评估竞争对手的AI回复。然而,据报道,Gemini的承包商需要按照多个标准(如真实性与详尽程度)来评价他们所见到的每一个回复。根据TechCrunch获取的内部通讯,承包商们只有最多30分钟的时间来判断Gemini或Claude的回答哪一个更胜一筹。 这种做法反映了AI模型评估过程中存在的复杂性和挑战性。尽管行业基准测试为评估提供了一个客观的标准,但针对特定模型的细致人工评估仍然是不可或缺的一部分。这不仅能够帮助发现模型可能存在的细微缺陷,也能够更好地理解其实际应用中的表现。不过,这样的评估方式是否高效,是否会因为时间限制而影响到评价的准确度,这些都值得进一步探讨。
内部聊天记录显示,承包商注意到 Claude 的回复似乎比 Gemini 更强调安全性。一位承包商写道:“在所有 AI 模型中,Claude 的安全设置是最严格的。”在某些情况下,Claude 不会回应其认为不安全的提示词(prompt),例如扮演不同的 AI 助手。在另一次测试中,Claude 避免回答某个提示词,而 Gemini 的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。
Anthropic的商业条款规定,客户不得在未获得Anthropic许可的情况下访问Claude,用于构建竞争对手的产品或服务,或训练 rival AI 模型。值得注意的是,谷歌是Anthropic的重要投资方。
对此,谷歌DeepMind(负责Gemini项目)的发言人McNamara表示,DeepMind确实会对模型输出进行比较以进行评估,但Gemini并未使用Anthropic的模型进行训练。“我们确实会在评估过程中比较模型输出,这是行业惯例,”McNamara说,“但是,有关我们使用Anthropic模型来训练Gemini的说法是不正确的。”