【小哈划重点:研究人员要求聊天机器人根据发表在顶刊上的文章撰写50篇医学研究摘要。然后,他们通过剽窃检测器和AI输出检测器将这些摘要与原始摘要进行比对,并请一组医学研究人员找出编造的摘要。结果,ChatGPT生成的摘要通过了剽窃检查:原创度得分中值为100%,表明没有发现抄袭。AI输出检测器发现了66%的生成摘要。】
虚假信息带来的伦理和安全问题敲响警钟
科学家担心,人工智能的日益成熟可能会破坏研究的完整性和准确性。图片来源:Ted Hsu/Alamy
生物预印本服务器bioRxiv日前发布的一项研究显示,人工智能(AI)聊天机器人可以写出科学家通常无法辨别真假的虚假研究论文摘要。
“我很担心。”英国牛津大学科学家、并未参与此项研究的Sandra Wachter说,“如果专家无法判断真假,我们就失去了指导我们解决复杂问题的迫切需要的中间人。”
聊天机器人ChatGPT可以根据用户提示创建真实、智能的文本。这是一个“大型语言模型”,是一个基于神经网络的系统,通过学习大量现有人类生成文本执行任务。总部位于美国加州旧金山的软件公司OpenAI发布了这款工具,并可免费。
该工具发布以来,研究人员一直努力解决围绕其使用的伦理问题,因为它输出的文本很难与人类书面文本区分开来。科学家已经发表了由ChatGPT撰写的预印本和社论。现在,西北大学的Catherine Gao领导的一个小组,使用ChatGPT生成了论文摘要,以测试科学家能否辨别它们的真假。
研究人员要求聊天机器人根据发表在《美国医学会杂志》《新英格兰医学杂志》《英国医学杂志》《柳叶刀》和《自然-医学》的文章,撰写50篇医学研究摘要。然后,他们通过剽窃检测器和AI输出检测器将这些摘要与原始摘要进行比对,并请一组医学研究人员找出编造的摘要。
结果,ChatGPT生成的摘要通过了剽窃检查:原创度得分中值为100%,表明没有发现抄袭。AI输出检测器发现了66%的生成摘要。但人工审稿人并没有做得更好——只正确识别了68%的生成摘要和86%的真实摘要,错误地将32%的生成摘要识别为真实摘要、14%的真实摘要识别为生成摘要。
“ChatGPT撰写出了能骗过审稿人的科学摘要。”Gao和同事在预印本中说,“利用大型语言模型帮助科学写作的道德和可接受的界限仍有待确定。”
Wachter表示,如果科学家不能确定研究是否属实,那么会产生“可怕的后果”。如果研究人员阅读的研究是捏造的,可能会将他们带入有缺陷的研究路线。不仅如此,科学研究在社会中扮演着重要角色,这也可能意味着基于研究的政策决定是不正确的。
“任何一位严肃的科学家都不太可能使用ChatGPT生成摘要。”普林斯顿大学计算机科学家Arvind Narayanan补充说,“生成的摘要是否能被检测到并不重要,重要的是该工具是否能生成一个准确且令人信服的摘要。而ChatGPT不能,因此使用的好处是微不足道的,缺点则是显著的。”
Irene Solaiman在总部位于纽约和法国巴黎的AI公司hug Face研究AI的社会影响,她担心科学思维会依赖大型语言模型。“这些模型是根据过去的信息训练而成的,而社会和科学的进步往往来自与过去不同的思维,或开放性思维。”
作者建议,那些评估科学通讯的人应该制定政策,禁止使用AI生成的文本。若有机构选择在某些情况下使用该技术,则应该制定明确的规则。将于今年7月在夏威夷檀香山举行的第四十届国际机器学习大会,不久前宣布禁止使用ChatGPT和其他AI语言工具撰写的论文。
Solaiman补充说,虚假信息可能危及人类安全,比如医学领域。因此,期刊必须采取更严格的方法验证信息的准确性。
Narayanan说,问题的解决方案不应该仅集中在聊天机器人上,而应是导致这种行为的不正当动机上,比如大学在进行招聘和晋升审查时,只计算论文数量,而不考虑论文质量。
相关论文信息:
https://doi.org/10.1038/d41586-023-00056-7
《中国科学报》 (2023-01-17 第2版 国际)
(文章原标题:《机器人“撰写”摘要骗过科学家》)