中国科学报：AI幻觉可能越来越严重

文乐乐 ☉ 文来源：中国科学报 2025-05-13 @ 哈希力量

【小哈划重点：幻觉是大型语言模型（LLM）所犯错误的总称。它们有时会把虚假信息伪装成真实信息加以呈现。幻觉有时也指AI生成的答案是正确的，但与所问的问题无关，或在某些方面未能遵循指示。】

过去几个月，美国OpenAI和谷歌等科技公司的人工智能（AI）聊天机器人一直在进行所谓推理升级，目的是给人们提供更可信赖的答案。但最近的测试表明，它们有时比以前的模型更差。聊天机器人所犯的错误被称为“幻觉”，从诞生以来就是一个问题，现在看来，人们可能永远无法摆脱它们。

幻觉是大型语言模型（LLM）所犯错误的总称。它们有时会把虚假信息伪装成真实信息加以呈现。幻觉有时也指AI生成的答案是正确的，但与所问的问题无关，或在某些方面未能遵循指示。

OpenAI的一份技术报告评估了其最新的LLM，显示今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。

这个问题并不限于OpenAI。美国Vectara公司近日发布的一个幻觉率排行榜显示，与之前开发的模型相比，一些推理模型的幻觉率上升了两位数。这类模型在响应前会通过多个步骤展示一系列推理过程。

LLM的一些潜在应用可能因幻觉而失效。AI公司最初声称，这个问题会随着时间的推移而解决。事实上，模型的幻觉往往会随着更新而减少，但最近版本的高幻觉率使这一说法变得复杂。

Vectara排行榜基于模型总结所给文档得出的事实一致性进行了排名。Vectara的Forrest Sheng Bao说，这表明“推理模型与非推理模型的幻觉率几乎相同”，至少对于OpenAI和谷歌的系统而言是这样。

然而，这个排名可能并不是比较AI模型的最佳方式。一个问题是，它混淆了不同类型的幻觉。Vectara团队指出，尽管中国DeepSeek-R1模型的幻觉率为14.3%，但其中大部分是“良性”的——这些答案得到了逻辑推理或常识的支持，只是不存在于被要求总结的原始文本中。

美国华盛顿大学的Emily Bender表示，这种排名的另一个问题是，基于文本总结的测试“无法说明将LLM用于其他任务时出错的概率”。她表示，排行榜可能不是判断这种技术的最佳方式，因为LLM并非专门为总结文本而设计。

结果是，人们可能不得不与容易出错的AI共存。Bender表示，最好的做法可能是，避免依赖AI聊天机器人提供的事实信息。

《中国科学报》 (2025-05-13 第2版国际)

来源链接文末附或略。内容并不代表投资建议。

本文选录后固定可引用URL链接

http://www.haxililiang.com/toutiao/kuaixun/37366.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库