聊天机器人ChatGPT“撰写”论文摘要骗过科学家

李木子 ☉ 文来源：中国科学报 2023-01-24 @ 哈希力量

【小哈划重点：研究人员要求聊天机器人根据发表在顶刊上的文章撰写50篇医学研究摘要。然后，他们通过剽窃检测器和AI输出检测器将这些摘要与原始摘要进行比对，并请一组医学研究人员找出编造的摘要。结果，ChatGPT生成的摘要通过了剽窃检查：原创度得分中值为100%，表明没有发现抄袭。AI输出检测器发现了66%的生成摘要。】

虚假信息带来的伦理和安全问题敲响警钟

科学家担心，人工智能的日益成熟可能会破坏研究的完整性和准确性。图片来源：Ted Hsu/Alamy

生物预印本服务器bioRxiv日前发布的一项研究显示，人工智能（AI）聊天机器人可以写出科学家通常无法辨别真假的虚假研究论文摘要。

“我很担心。”英国牛津大学科学家、并未参与此项研究的Sandra Wachter说，“如果专家无法判断真假，我们就失去了指导我们解决复杂问题的迫切需要的中间人。”

聊天机器人ChatGPT可以根据用户提示创建真实、智能的文本。这是一个“大型语言模型”，是一个基于神经网络的系统，通过学习大量现有人类生成文本执行任务。总部位于美国加州旧金山的软件公司OpenAI发布了这款工具，并可免费。

该工具发布以来，研究人员一直努力解决围绕其使用的伦理问题，因为它输出的文本很难与人类书面文本区分开来。科学家已经发表了由ChatGPT撰写的预印本和社论。现在，西北大学的Catherine Gao领导的一个小组，使用ChatGPT生成了论文摘要，以测试科学家能否辨别它们的真假。

研究人员要求聊天机器人根据发表在《美国医学会杂志》《新英格兰医学杂志》《英国医学杂志》《柳叶刀》和《自然-医学》的文章，撰写50篇医学研究摘要。然后，他们通过剽窃检测器和AI输出检测器将这些摘要与原始摘要进行比对，并请一组医学研究人员找出编造的摘要。

结果，ChatGPT生成的摘要通过了剽窃检查：原创度得分中值为100%，表明没有发现抄袭。AI输出检测器发现了66%的生成摘要。但人工审稿人并没有做得更好——只正确识别了68%的生成摘要和86%的真实摘要，错误地将32%的生成摘要识别为真实摘要、14%的真实摘要识别为生成摘要。

“ChatGPT撰写出了能骗过审稿人的科学摘要。”Gao和同事在预印本中说，“利用大型语言模型帮助科学写作的道德和可接受的界限仍有待确定。”

Wachter表示，如果科学家不能确定研究是否属实，那么会产生“可怕的后果”。如果研究人员阅读的研究是捏造的，可能会将他们带入有缺陷的研究路线。不仅如此，科学研究在社会中扮演着重要角色，这也可能意味着基于研究的政策决定是不正确的。

“任何一位严肃的科学家都不太可能使用ChatGPT生成摘要。”普林斯顿大学计算机科学家Arvind Narayanan补充说，“生成的摘要是否能被检测到并不重要，重要的是该工具是否能生成一个准确且令人信服的摘要。而ChatGPT不能，因此使用的好处是微不足道的，缺点则是显著的。”

Irene Solaiman在总部位于纽约和法国巴黎的AI公司hug Face研究AI的社会影响，她担心科学思维会依赖大型语言模型。“这些模型是根据过去的信息训练而成的，而社会和科学的进步往往来自与过去不同的思维，或开放性思维。”

作者建议，那些评估科学通讯的人应该制定政策，禁止使用AI生成的文本。若有机构选择在某些情况下使用该技术，则应该制定明确的规则。将于今年7月在夏威夷檀香山举行的第四十届国际机器学习大会，不久前宣布禁止使用ChatGPT和其他AI语言工具撰写的论文。

Solaiman补充说，虚假信息可能危及人类安全，比如医学领域。因此，期刊必须采取更严格的方法验证信息的准确性。

Narayanan说，问题的解决方案不应该仅集中在聊天机器人上，而应是导致这种行为的不正当动机上，比如大学在进行招聘和晋升审查时，只计算论文数量，而不考虑论文质量。