幻觉之困:解密AI大模型的智能迷局
3月19日消息,据中国信通院官方微信公众号透露,为了深入了解大模型的幻觉现象,促进大模型技术的实际应用,中国信息通信研究院人工智能研究所结合此前的AISafetyBenchmark测评项目,启动了大模型幻觉测试工作。
大模型幻觉(AI Hallucination)指的是模型在输出信息或解答问题时,生成了表面上看似有逻辑但实际与用户输入不符(忠实性幻觉),或是与客观事实相悖(事实性幻觉)的结果。随着这类模型在医疗、金融等重要领域的深入应用,其可能引发的风险也逐渐显现,并受到行业的高度关注。
本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:
测试数据涵盖7000多条中文样本,测试形式涵盖与忠实性幻觉检测相关的信息抽取和知识推理两种题型,以及针对事实性幻觉检测的事实判别题型。整体内容涉及人文科学、社会科学、自然科学、应用科学和形式科学五大领域。
中国信通院面向各相关企业发出邀请,携手开展模型测评工作,共同促进大模型的安全应用与发展。