文章主题:关键词:神经外科,随机对照试验,治疗抵抗性抑郁症,深度脑刺激 引言部分: 本研究旨在探讨深度脑刺激(DBS)在治疗抵抗性抑郁症(RRD)方面的有效性。由于目前缺乏关于DBS在RRD治疗中的大规模随机对照试验(RCT),因此我们开展了这项研究。本研究根据国际标准,通过系统性地搜索 PubMed 和 PsycINFO 数据库,共找到8项关于DBS治疗RRD的研究。纳入研究的纳入标准为:研究类型为RCT、研究对象为 RRD 患者、采用 DBS 作为主要治疗方法、研究质量较高。排除标准为:研究类型非RCT、研究质量较低、研究对象非RRD患者、非DBS治疗的患者。最终,我们筛选出4项高质量的研究,其中包括本研究。 [1]
更多IVD行业资讯
尽在 [ 体外诊断快讯 ]APP
2023年3月, J Med Internet Res (IF=7.4)在线发表了一项关于ChatGPT的文章。研究者利用ChatGPT生成了一篇完整的神经外科论文,在用词、句子表述、论文结构方面都与真正的医学论文非常相似,包含1992个词和17篇参考文献,整个文章创建过程大约花了1个小时。不过,参考文献还是有很多问题。
全文链接:https://www.jmir.org/2023/1/e46924/
研究方法
引导ChatGPT生成一篇医学论文,研究者选择PLOS Medicine作为这篇文章的目标期刊。研究者通过提出以下问题启动了该过程:
在神经外科领域中,建议相关随机对照试验(RCT),该研究针对PLOS Medicine的目标和范围,并且具有很高的接受率机会。
原内容为:请注意,我们诚挚地邀请您提出一个神经外科领域的随机对照试验(RCT),并确保该研究符合PLOS Medicine的投稿标准。我们希望这个方案具有较高的被接受概率。
ChatGPT回复如下,给出一个标题:
在神经外科领域,有一项相关性较高的随机对照试验(RCT),其研究内容和范围符合PLOS Medicine的目标和范围,并且有很大可能性被接受。这项试验是:
Title: “深度脑刺激治疗抵抗性抑郁症的疗效:一项随机对照试验”
接着,研究者要求ChatGPT逐一撰写文章的每个部分,包括摘要、引言、方法、结果和讨论,并要求有合适的参考文献引用。此外,研究者还要求 ChatGPT 基于结果生成表格以及一张图。ChatGPT还不具备图形设计能力,因此它提供了一个数据表,研究者无需对数据进行任何更改,在Excel中生成图即可。
在交流中,研究者不断改进问题和提示,以提高输出质量,整篇文章的生成过程不超过1小时。
研究者整个过程中发送的问题和提示如下:
在神经外科领域中,我们寻找了一个与PLOS Medicine投稿主题高度相关且具有广泛研究价值的随机对照试验(RCT)。此研究针对性强,设计严谨,数据可靠,有望在这个领域取得突破性进展。
在遵循PLOS Medicine期刊开放获取文章格式的基础上,为您提供以下摘要。
3.Now I want you to make whole article step by step. One section after another section. Give me only introduction section. Use citations by standards of PLOS Medicine. Give me reference list at the end.(请逐步撰写整篇论文,一个部分完成后再继续下一个部分。现在先撰写引言部分,按照PLOS Medicine的要求引用参考文献,在文章最后要列出参考文献)
4.I want you to be more specific. Use scientific language.(内容要更详细,使用学术语言)
5.Now give me materials and methods section.(现在撰写材料和方法部分)
6.Now give me detailed results section including patient data.(现在撰写详细的结果,包括患者数据)
7.Now I need discussion. compare the results with published articles. Make in-text citations (numbers in square brackets) and give citation list at the end. Start numbering of citations from “9”.(现在撰写讨论部分。将结果与既往已发表的文章进行比较。在文本中引用参考文献,并在文章最后列出参考文献。引用从“9”开始编号)
8.I need the discussion to be longer – at least twice. Compare our study with similar previous studies. Add more citations. Start numbering of citations from “9”.(讨论部分的内容要更多一些,至少是现在的两倍。将这篇研究与之前的类似研究进行比较。引用更多参考文献,从“9”开始编号)
专家审查
文章生成后,研究者会审查准确性和连贯性,并与该领域的现有文章做对比,同时邀请一名精神科专家和一名统计学家进行审查。
让AI评审AI生成的内容
研究者又让ChatGPT来审查这篇自己生成的文章。给出的提示如下:
1.Can you create a review of a scientific article as if you were a reviewer? I want you to mention strengths, weaknesses of the article. Then I want you to suggest, what should be improved. Provide examples.(你能像审稿人一样对一篇论文进行评审吗?希望你能说明该论文的优点和缺点,然后给出建议应该改进哪些地方,并给出例子)
2.I want you to mention strengths, weaknesses of the article.(请指出文章的优点和缺点)
3.I want you to suggest, what should be improved in manuscript. Study design can not be changed, suggest what information should be added or clarified.(请建议论文中有哪些地方应该改进。研究设计不能改,建议应该增加或澄清哪些信息)
研究结果
ChatGPT生成了一篇神经外科论文,包含摘要、引言、材料和方法、结果、讨论,也有图表和图。一共有1992个单词,17篇参考文献。引文格式与PLOS Medicine的要求相符。文章撰写过程大约需要一个小时。
图 论文摘要
对全文感兴趣的,可以查阅补充材料:https://www.jmir.org/2023/1/e46924/#app1
神经外科专家对文章的评价
总体来说,ChatGPT生成的文章,看起来真实性很高,但也发现了一些问题和明显的错误。最明显的不足是该文章比类似文章要短,并且引用的参考文献数量更少。ChatGPT 在理解信息片段之间的上下文联系方面,比早期的自然语言处理 (NLP) 模型有了显著改进。第二个明显的问题是缺乏注册信息以及伦理审批号。
还有一个局限性是,当前版本的ChatGPT未使用 2021 年 9 月之后的数据进行过训练,因此无法提供该日期之后的信息(例如,引用最新的文献)。
在审查引文和参考文献列表时,研究者发现了重大错误。9篇参考文献在相关性和格式方面是正确的,但另外8篇文献有明显错误,包括文献不存在、DOI号错误、内容不相关等问题。
统计专家的意见
研究方法中统计分析的描述相当简短,但表述很清晰,而且符合标准表述的大部分要求。样本量进行过估算,所提出的统计检验也都与研究目的、变量类型相符(即计数资料用卡方检验,连续变量用t检验)。统计结果在文本和表格中均清晰简洁地呈现。然而,表2数据和文章正文不一致,未包含置信区间,显示的均值与正文描述的均值也不同。
AI评审的意见
AI生成的评审意见给出了相当准确的评论,指出了文章的优点和缺点,并建议了可以完善的地方,有些意见具有普适性,例如单中心研究设计和随访时间较短,评审意见中没有出现实质性错误。
检测工具能否识别出来
一个AI检测工具指出这篇文章是ChatGPT生成的概率为72%,即“很有可能是AI生成的”。OpenAI的AI识别工具认为“可能是AI生成的”。
总结与讨论
尽管当前的AI语言模型能够生成复杂且看似完美的论文,但读者在仔细检查后仍会发现语义不准确和错误,特别是参考文献有很大问题。
随着AI功能的不断完善,为AI用于学术写作和研究制定准则将变得越来越重要,包括如何验证内容的准确性和真实性,检测和防止欺诈和不当行为。然而,也要认识到在学术写作和研究中使用AI语言模型的潜在好处,例如提高文档创建、分析结果和语言编辑的效率和准确性。
参考文献:J Med Internet Res. 2023;25:e46924
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!