OpenAI 本周发布了一项重要的研究,针对大型语言模型产生幻觉现象的根本原因进行系统性分析。这项研究指出,现行的训练和评估流程偏向于奖励模型的猜测,而非鼓励其承认不确定性,这也是导致 AI 自信生成错误信息的主要因素。
AI 幻觉是指模型自信地生成看似合理但实际上却错误的陈述,这一问题成为用户完全信任 AI 系统的障碍。OpenAI 在其论文中明确定义幻觉为 模型自信地生成虚假答案的情况,即使面对如 GPT-5 等最新的模型,幻觉现象依然存在。
在研究中,论文的第一作者 Adam Tauman Kalai 进行了测试,发现不同的聊天机器人在被询问其博士论文标题时,都毫不犹豫地给出了错误的答案,这显示了这一问题的普遍性。
OpenAI 的团队发现,目前的评估方法设置了错误的激励机制,这也是幻觉现象持续存在的部分原因。研究者指出,大多数评估模型性能的方法会促使模型进行猜测,而非诚实面对不确定性。
这与多项选择题测试相似:如果不知道答案但随意猜测,仍有机会答对;而选择不作答则必然得零分。因此,当模型仅根据准确度进行评分时,所鼓励的便是猜测,而非承认不知道。
研究表明,在数千道测试题中,采用猜测策略的模型最终在排行榜上的表现优于谨慎承认不确定性的模型。OpenAI提到,放弃答案是谦逊指标的一部分,而谦逊是公司核心价值观之一。
尽管幻觉现象依然存在,OpenAI 最新的 GPT-5 在减少幻觉方面已取得显著进展。根据 GPT-5 的系统卡数据,新模型的幻觉率较 GPT-4o 下降了约 26%,并在多项评估中显示出卓越的表现。
在 LongFact-Concepts 和 LongFact-Objects 的测试中,GPT-5 的幻觉率仅为 0.7% 和 0.8%,明显低于 OpenAI o3 的 4.5% 和 5.1%。在医疗查询等高风险场景中,GPT-5 的幻觉率仅为 1.6%,显示出其在该领域的优势。
OpenAI 提出了一个简单的解决方案:对于自信错误的惩罚应该高于对不确定性的惩罚,同时还要对适当表达不确定性的行为给予加分。研究团队强调,仅仅增加不确定性感知测试是不够的,还需要更新目前广泛使用的评估方法。
论文中指出,如果主要的评估指标持续奖励模型的幸运猜测,模型将会不断学习这种猜测行为。而修改评估指标则可以扩大采用降低幻觉技术的范围。
研究还分析了幻觉在预训练过程中的产生机制。OpenAI 说明,语言模型通过预测海量文本中的下一个词来进行学习,不同于传统的机器学习,每个语句并没有明确的 真/假 标签,模型只能看到流畅语言的正面示例。
研究团队通过图像识别进行类比说明:假如用宠物生日的标签来标记照片,即使算法再先进,也会因为生日的随机性而出现错误。同样,对于像拼写和标点符号这种遵循一致模式的例子,随着数据的增多,这些错误会减少;但像宠物生日这种随机的低频事实,无法仅靠模式来进行预测,因此会导致幻觉的出现。
与此同时,OpenAI 正在重组其模型行为团队,这支约 14 人的研究小组负责塑造 AI 模型与人类的互动方式。根据内部备忘录,模型行为团队将并入后期训练团队,并向后期训练的主管 Max Schwarzer 汇报。
团队的创始负责人 Joanne Jang 将启动一个名为 OAI Labs 的新项目,专注于发明和设计人与 AI 协作的新界面原型。该团队曾致力于塑造模型的性格特征和减少模型的谄媚行为,同时处理政治偏见等问题。
这项研究为理解 AI 幻觉问题提供了重要的理论基础,有助于推动整个行业改善模型评估标准。OpenAI 表示,将持续努力进一步降低语言模型输出的置信错误率。
业界专家认为,随着评估方法的改进和新技术的应用,AI 幻觉问题有望得到更好的控制,这将进一步提升用户对 AI 系统的信任度和实用性。



