《震惊!大语言模型竟被中科院发现具备人脑级世界深度理解能力》
6月11日消息,从中科院自动化研究所官方微信公众号了解到,近期该所神经计算与脑机交互(NeuBCI)课题组携手中科院脑科学与智能技术卓越创新中心的联合团队,通过行为实验与神经影像分析,首次发现多模态大语言模型(MLLMs)能够自发构建出与人类极为相似的物体概念表征体系。这一研究为人工智能认知科学探索了全新方向,也为打造具有类人认知结构的人工智能系统提供了理论支撑。相关论文以《多模态大语言模型中自然涌现的人类式物体概念表征》为题,在《自然・机器智能》(NatureMachineIntelligence)上正式发表。
人类长期以来被认为凭借其独特的认知能力,能够对自然界中的事物进行概念化处理。当我们面对“狗”“汽车”或“苹果”这样的事物时,不仅能感知它们的物理属性(如大小、颜色、形态等),还能深入理解其功能、情感内涵以及文化象征意义。这种多层次的概念构建,正是人类智能的重要基础。
传统人工智能的研究往往集中在提升物体识别的准确率上,但对于模型是否真正“理解”物体的意义却鲜有深入探讨。论文的通讯作者何晖光研究员认为:“尽管现有的AI系统能够准确地区分猫和狗的图片,但这种‘识别’与人类对猫狗本质的理解之间仍存在未解之谜。”为此,研究团队从认知神经科学的经典理论入手,提出了一种结合计算建模、行为实验以及脑科学研究的新方法。研究采用了认知心理学中的“三选一异类识别任务”(triplet odd-one-out),让大模型与人类参与者在由1854种日常概念随机组成的三元组中找出最不相似的选项。通过对470万次行为判断的数据进行分析,研究团队首次构建了AI大模型的“概念地图”。
最近的一项研究通过分析大量大模型的行为数据,提炼出了66个“心智维度”,并对每个维度赋予了清晰的语义标签。研究结果表明,这些心智维度不仅具有很高的可解释性,而且与人类大脑中特定的功能区域活动紧密相连,例如负责识别面孔的FFA区、处理场景信息的PPA区以及涉及身体感知的EBA区。这无疑为理解人工智能系统如何模拟人类认知过程提供了新的视角。 我个人认为,这项研究的重要性在于它架起了人工智能技术与神经科学之间的桥梁。通过观察AI模型的表现是否能映射到人脑的不同功能区,我们或许能够更深入地探索智能的本质。此外,这也意味着未来的人工智能设计可能会更加注重模仿自然智能的工作机制,在提升机器学习效率的同时,也可能促进对人类自身认知能力的新一轮认识。总之,这一发现既是对现有理论框架的补充,也为未来的跨学科合作开辟了无限可能。
最新研究发现,在行为选择模式与人类一致性的比较中,多模态大模型(例如Gemini_Pro_Vision、Qwen2_VL)的表现尤为突出。这表明这些模型在处理复杂任务时能够更好地融合视觉与文本信息,从而展现出更高的拟人化程度。研究进一步指出,人类在日常决策过程中往往依赖于直观的视觉感受以及深层次的语义关联,而大模型则更多地依靠语义标签和抽象概念来完成推理。这一结论打破了外界对大语言模型只是简单重复输入内容的刻板印象,证明其具备一定的逻辑思维能力,并且在某种程度上模拟了人类的认知过程。 从我的角度来看,这项研究成果不仅提升了我们对人工智能技术潜力的认识,也为未来跨领域应用奠定了坚实基础。随着技术进步,我们可以期待看到更加智能化的产品和服务涌现出来,它们不仅能理解复杂的自然语言指令,还能通过综合分析多种感官数据做出精准响应。同时,这也提醒我们需要加强对AI系统的监管与引导,确保其发展方向符合社会伦理规范,避免潜在风险发生。总之,这项研究让我们看到了科技发展的无限可能,同时也促使我们思考如何平衡技术创新与人文关怀之间的关系。