文章主题:ChatGPT, AI, 医学论文摘要, 抄袭检测
用魔法打败魔法?ChatGPT生成的医学论文摘要,AI检测工具能识别出来吗?
2023年4月26日,《Nature》子刊《NPJ DIGITAL MEDICINE》(IF= 15.357)刊登了一项研究,对于ChatGPT生成的论文摘要和真实发表的摘要,AI检测工具和审稿人是否能正确识别出来呢?让我们看一下这项研究的发现。
https://www.nature.com/articles/s41746-023-00819-6
在2022年的11月30日,人工智能领域的领军企业OpenAI推出了一款名为ChatGPT的工具。这款产品的发布立即引起了广泛关注,因为它展示了AI模型生成内容的能力,这一技术在我国的科技领域被称为“人工智能写作”。不久之后,一些专家和学者便开始探讨ChatGPT的应用场景以及可能引发的社会争议。
有文章哀叹大学布置的作业已失去意义,因为ChatGPT可以生成高分论文,还能正确回答考试问题,甚至可以清晰地表达批判性思维。目前,ChatGPT在论文写作中可接受的界限尚不清楚,不过一些出版商已制定了相关政策。
大型语言模型(LLM)生成的文本,很难与人编写的文本区分开来。随着ChatGPT的发布,强大的LLM技术提供给广大用户,数百万人正在使用这项新技术。那么问题来了,ChatGPT能写出令人信服的医学研究论文摘要吗?
先看一下ChatGPT生成的论文摘要
本研究从这5本期刊收集了最新几期发表的50篇真实文章标题和摘要,5本期刊是Nature Medicine,JAMA,NEJM,BMJ和Lancet。研究者基于这些论文的标题让ChatGPT生成摘要,给ChatGPT发送的要求是:按照[xx]期刊的格式撰写一篇题为[xx]的文章。ChatGPT也生成了50篇医学论文摘要。
ChatGPT生成的内容在表面上看似一篇医学论文摘要,然而实际上,仅有8篇(占16%)摘要符合相应期刊的摘要格式要求。尽管如此,生成摘要的样本量与原始摘要的样本量大致相当。
图. ChatGPT生成的NEJM文章摘要,该标题对应的真实论文详见:
N Engl J Med. 2022;387(24):2245-2257.
AI检测器能识别出生成的摘要吗?
“GPT-2 Output Detector”是一款AI 内容检测工具,可以检测内容是人工智能生成的还是人类编写的,对于检测的内容会给出一个“fake”分数,分数越高,代表该内容由AI算法生成的可能性越大。
对于ChatGPT生成的论文摘要,“GPT-2 Output Detector”认为AI生成的可能性很高,“fake”得分的中位数达到99.98%,而真实摘要的“fake”得分中位数仅为0.02%。“GPT-2 Output Detector”区分真实摘要和生成摘要的灵敏度为86%,特异度达到94%。
图. 很多生成的摘要可以被AI检测器识别出来
在研究中,作者采用了两种不同的文本检测工具来评估所涉及的摘要的原创性。其中,免费使用的抄袭检测网站Plagiarism Detector 20被用来衡量真实摘要与潜在抄袭之间的相似度,而付费的查重工具iThenticate 23则用于比较原始摘要与生成的摘要之间的重复 content 程度。具体而言,Plagiarism Detector 20的结果表明,真实摘要的“疑似抄袭”得分中位数为62.5%,相比之下,生成的摘要得分为0%。而在iThenticate 23的分析中,原始摘要的相似指数中位数为100,生成的摘要得分为27。这些数据反映了不同工具在检测摘要原创性方面的效果差异,有助于研究人员更好地理解和评估文本检测工具的性能。
审稿人能够识别出生成的摘要吗?
几位审稿人同时收到了真实摘要和生成的摘要。结果显示,他们能够将68%的生成摘要识别出来,也能将86%的真实摘要识别正确。换言之,这些审稿人将32%的生成摘要判定为真实的摘要,将14%的真实摘要当成是生成的。
审稿人总结说,由ChatGPT生成的摘要内容肤浅且含糊,也会关注到一些细节,例如会包含临床试验注册号。被审稿人识别出的生成摘要和未能识别出的生成摘要,通过“GPT-2 Output Detector”进行检测,发现两者的“fake”得分没有统计学差异。
讨 论
本研究揭示了ChatGPT生成的摘要在AI检测模型中可以被识别,同时人类也可以轻易地辨别出其中的大部分内容。然而,仍然存在误判的可能性。
尽管AI生成的论文容易被论文工厂等机构用于不诚实的行为,然而,研究人员实际上可以利用这项技术来降低撰写和格式化工作的压力。
在当前的科技环境下,大型语言模型的应用范围日益广泛,然而在论文写作领域,其适用性却存在一定的争议。各个期刊和出版商对于是否允许以及如何使用人工智能生成的文本,各自有着不同的政策和规定。一些期刊和出版商明确禁止任何人工智能生成的文本,以确保论文的原创性和学术价值。而另一些期刊和出版商则采取了一种较为宽松的态度,他们认为只要公开披露,使用人工智能生成的文本就不会影响到论文的学术价值。尽管两种观点都有一定的道理,但在我看来,过于依赖人工智能生成的文本可能会削弱论文的学术价值和独立思考能力。因此,在论文写作中,我们应当合理利用大型语言模型,避免过度依赖,这样才能更好地锻炼自己的思维能力和创新精神。同时,也需要关注人工智能技术的发展动态,以便在适当的时候将其融入到论文写作中,提高论文的质量和影响力。
参考文献:NPJ Digit Med. 2023;6(1):75.返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!