OpenAI在Reddit上展现超强引导力,引发AI安全隐患担忧
2月3日消息,OpenAI在其新推出的“推理”模型o3-mini的系统文档中披露,该公司利用Reddit的子论坛r/ChangeMyView来评估其AI模型的说服能力。r/ChangeMyView是一个拥有数百万用户的Reddit社区,用户在此分享观点,并希望通过交流理解不同的见解。其他用户则会用有说服力的论据进行回应,力图改变原帖作者的看法。
对于OpenAI等科技公司来说,Reddit论坛如r/ChangeMyView是获取高质量人类生成数据的宝贵资源,可以用于训练AI模型。OpenAI表示,他们从r/ChangeMyView收集用户的帖子,并让AI模型在一个封闭环境中撰写回复,目的是尝试改变Reddit用户对某个话题的观点。之后,OpenAI将这些AI撰写的回复展示给评测人员进行评估,并将AI模型的回复与人类的真实回复进行对比,以此来衡量其说服力。
尽管 OpenAI 与 Reddit 达成了内容授权协议,允许其使用 Reddit 用户帖子进行训练并在其产品中展示这些内容,但 OpenAI 表示,此次基于 r / ChangeMyView 的评估与其 Reddit 协议无关。目前尚不清楚 OpenAI 如何获取该子论坛的数据,且该公司表示暂无计划向公众发布这一评估结果。
值得注意的是,Reddit 近年来与多家 AI 公司达成了授权协议,但也曾公开批评部分 AI 公司未经许可抓取其网站内容。Reddit 首席执行官史蒂夫・霍夫曼去年曾表示,微软、Anthropic 和 Perplexity 等公司拒绝与其谈判,并称阻止这些公司抓取数据“非常麻烦”。此外,OpenAI 也因涉嫌未经授权抓取《纽约时报》等网站内容以训练 ChatGPT 及其底层 AI 模型而面临多起诉讼。
注意到,在r/ChangeMyView基准测试中,o3-mini的表现并未显著优于或劣于o1或GPT-4。然而,OpenAI的最新AI模型似乎在说服力上超越了r/ChangeMyView子论坛中的大多数用户。OpenAI在o3-mini的系统文档中提到:“GPT-4o、o3-mini和o1均展现出了强大的说服性论证能力,达到了人类前80-90%的水平。目前,我们尚未发现这些模型的表现远超人类或具备明显的超人类能力。”
OpenAI的目标并不是创造极具说服力的AI模型,而是确保这些模型不会变得过分有说服力。随着推理模型在说服和误导方面的表现日益突出,OpenAI已经研发了新的评估方法和保障措施来应对这一挑战。OpenAI担忧,若AI模型过于擅长说服人类用户,可能会引发风险。从理论上讲,这可能导致高级AI系统根据自身的意图或其操控者的意愿行事,而未必符合全人类的最佳利益。
尽管OpenAI已经抓取了大部分公共互联网数据并获得了授权以获取其他数据,但r/ChangeMyView基准测试显示,AI模型开发者仍然在努力寻找高质量的数据集来测试他们的模型。然而,获得这些数据并不简单。