哈希力量归集文库路径访问: 首页 > 通用人工智能 > 人工智能产业要闻库

中国科学报:AI幻觉可能越来越严重

文乐乐 ☉ 文 来源:中国科学报 2025-05-13 @ 哈希力量

【小哈划重点:幻觉是大型语言模型(LLM)所犯错误的总称。它们有时会把虚假信息伪装成真实信息加以呈现。幻觉有时也指AI生成的答案是正确的,但与所问的问题无关,或在某些方面未能遵循指示。】

过去几个月,美国OpenAI和谷歌等科技公司的人工智能(AI)聊天机器人一直在进行所谓推理升级,目的是给人们提供更可信赖的答案。但最近的测试表明,它们有时比以前的模型更差。聊天机器人所犯的错误被称为“幻觉”,从诞生以来就是一个问题,现在看来,人们可能永远无法摆脱它们。8DK哈希力量 | 通用人工智能文库

幻觉是大型语言模型(LLM)所犯错误的总称。它们有时会把虚假信息伪装成真实信息加以呈现。幻觉有时也指AI生成的答案是正确的,但与所问的问题无关,或在某些方面未能遵循指示。8DK哈希力量 | 通用人工智能文库

OpenAI的一份技术报告评估了其最新的LLM,显示今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。8DK哈希力量 | 通用人工智能文库

这个问题并不限于OpenAI。美国Vectara公司近日发布的一个幻觉率排行榜显示,与之前开发的模型相比,一些推理模型的幻觉率上升了两位数。这类模型在响应前会通过多个步骤展示一系列推理过程。8DK哈希力量 | 通用人工智能文库

LLM的一些潜在应用可能因幻觉而失效。AI公司最初声称,这个问题会随着时间的推移而解决。事实上,模型的幻觉往往会随着更新而减少,但最近版本的高幻觉率使这一说法变得复杂。8DK哈希力量 | 通用人工智能文库

Vectara排行榜基于模型总结所给文档得出的事实一致性进行了排名。Vectara的Forrest Sheng Bao说,这表明“推理模型与非推理模型的幻觉率几乎相同”,至少对于OpenAI和谷歌的系统而言是这样。8DK哈希力量 | 通用人工智能文库

然而,这个排名可能并不是比较AI模型的最佳方式。一个问题是,它混淆了不同类型的幻觉。Vectara团队指出,尽管中国DeepSeek-R1模型的幻觉率为14.3%,但其中大部分是“良性”的——这些答案得到了逻辑推理或常识的支持,只是不存在于被要求总结的原始文本中。8DK哈希力量 | 通用人工智能文库

美国华盛顿大学的Emily Bender表示,这种排名的另一个问题是,基于文本总结的测试“无法说明将LLM用于其他任务时出错的概率”。她表示,排行榜可能不是判断这种技术的最佳方式,因为LLM并非专门为总结文本而设计。8DK哈希力量 | 通用人工智能文库

结果是,人们可能不得不与容易出错的AI共存。Bender表示,最好的做法可能是,避免依赖AI聊天机器人提供的事实信息。8DK哈希力量 | 通用人工智能文库

《中国科学报》 (2025-05-13 第2版 国际)8DK哈希力量 | 通用人工智能文库



收录源追溯链接或暂略


本文收录后固定可引用URL链接
    http://www.haxililiang.com/toutiao/kuaixun/37366.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 人机智能科普文库