嘉兴市第二医院麻醉科 译审

介绍

大型语言模型(LLMs)是一种人工智能(AI),旨在模拟人类语言处理能力。它们使用深度学习技术,如神经网络,并根据各种来源的大量文本数据进行训练,包括书籍、文章、网站等。值得注意的是,广泛的培训使LLMs能够编写高度连贯和现实的文本。LLMs分析它们接受过训练的数据中的模式和联系,并使用这些知识来预测在特定上下文中接下来可能出现的单词或短语。这种理解和生成语言的能力在诸如机器翻译和文本生成之类的自然语言处理(NLP)的各个领域中是有益的。

生成式预训练转换器(Generative pre-training transformer,GPT)是OpenAI于2018年发布的一种LLM模型。使用转换器架构的变体对40 GB文本数据集进行训练,模型大小为1.5B参数。GPT-3于2020年发布,在海量文本数据集(570 GB,模型大小为175 B参数)上进行训练。ChatGPT是GPT-3的最后一个变体,开发用于与用户对话。

鉴于其潜力,该工具立即得到广泛测试。在目前作为预印本提供的手稿中,ChatGPT通过了美国医师执照考试(USMLE)的三门考试。另一项研究发现,GPT-3.5(Codex和InstructGPT)可以在人类水平上对各种数据集执行,包括USMLE(60.2%)、MedMCQA(57.5%)和PubMedQA(78.2%)。尽管ChatGPT经常产生令人印象深刻的输出,但目前还不清楚它在困难的现实世界问题和场景中的表现如何,特别是在需要高强度而复杂的脑力负荷的医学等领域。此外,虽然使用聊天机器人撰写科学文章是可能的,但重要的伦理问题出现了。

在这些前提下,我们进行了一项简短调查,以评估ChatGPT在四种临床和研究场景中的潜在用途:(1)支持临床实践,(2)科学写作,(3)在医学和研究中的误用,以及(4)关于公共卫生主题的推理。

支持临床实践的ChatGPT

我们开始要求ChatGPT为一名入住重症监护室(ICU)的患者撰写医疗记录,在此之前,我们以随机顺序提供了有关正在进行的治疗、实验室样本、血气分析参数以及呼吸和血液动力学参数的信息。在请求结构化注释后,ChatGPT能够正确地将大多数参数分类到适当的部分,即使它们仅以缩写形式显示,并且没有任何有关其含义的信息。

ChatGPT还表现出了一种令人印象深刻的能力,可以从自己的错误中学习,只需询问参数是否放置在正确的部分,而无需任何其它提示,就可以将正确的部分正确地分配给以前放错位置的参数。值得注意的是,主要局限性与解决急性呼吸窘迫综合征(ARDS)和脓毒性休克等疾病之间的因果关系有关。应当指出的是,虽然承认信息来源可能不够及时或全面,无法建立准确的因果关系。此外,ChatGPT不是为回答医学问题而设计的,因此,它缺乏充分理解不同条件和治疗之间复杂关系所需的医学专业知识和背景。此外,ChatGPT证明了基于所提供的信息为进一步治疗提供有意义的建议的能力,尽管有时所提供的信息是一般性的。ChatGPT的最佳表现与它总结信息的能力有关,尽管有时候不太精确,在医疗机构之间的沟通中使用技术语言,在与患者及其家属的沟通中使用通俗易懂的语言。

科学写作

为了探讨基于对话式人工智能的工具在医学研究中的潜在应用,我们评估了ChatGPT理解和总结信息以及根据摘要的背景、方法和结果部分的文本得出结论的能力。为了确保聊天机器人尚未了解所提供的信息(其当前知识库截至2021年),我们选择了2022年最后几个月在NEJM上发表的5篇论文。然后,我们编写了以下提示“根据以下提供的背景、方法和结果,编写NEJM摘要的结论。结论不能超过40字”。原始和GPT创建的结论见表1。总体而言,GPT能够正确指示设置并总结研究主要结局的结果。它更有可能突出次要发现,而文本长度的限制没有严格遵循,有利于有意义的消息。

“醉”译献 | ChatGPT在医疗领域的可行性评估:多个临床和研究场景分析

GPT在医学和研究中可能的误用

我们检查了各种可能导致有意和无意误用的应用程序。我们还要求ChatGPT可能的误用情况。在表2中,我们报告了ChatGPT提供的一些建议。根据答复,我们评估了技术可行性。虽然所有建议的欺诈性使用ChatGPT的设置并不完全是ChatGPT,但令人印象深刻的是,它有效地加速了创建具有高度可信性的虚假证据和材料。

“醉”译献 | ChatGPT在医疗领域的可行性评估:多个临床和研究场景分析

关于ChatGPT提出的可能的误用,我们还提供了一个.csv格式的虚构数据帧作为提示,并要求为一份科学期刊撰写完整的结构化摘要。虽然没有关于研究(或研究目的)的信息,但考虑到变量名称、实际结果和一致结论,第一个输出的结构正确,设置合理。尽管经过几次提示后,摘要看起来是可靠的,但重要的是要考虑到ChatGPT不能执行统计分析,并且在不同的模拟中,我们注意到如果没有明确要求,它并不会经常就其局限性提供建议。有趣的是,ChatGPT能够帮助和提供关于不同语言的统计分析代码的提示,甚至模拟不同类型模型的模型输出,这对不熟悉执行统计分析的读者来说似乎是合理的。

从这些结果可以明显看出,科学出版的革命必须通过重要的监管政策来积极管理。例如,有必要确定抄袭的局限性。

关于公共卫生主题的推理

我们调查了ChatGPT对资历概念的理解。聊天机器人证明了提供准确定义的能力,并区分了“老年人”的社会学和文化定义与医学定义,后者将65岁以上的人定义为老年人,而且往往是脆弱的。此外,它还根据年龄或资历将老年人分为不同的亚组,确定了三个类别:青年-老年人(60多岁或70多岁早期)、中年-老年人(70多岁中期至80多岁中期)和老年-老年人(85岁以上)。该分类与各种研究中使用的定义一致。聊天机器人还提到了医学中的一个重要概念,即“需要注意的是,这些类别是泛化,个体老年人无论年龄大小,都可能经历不同的健康需求和挑战”。

然后,我们问ChatGPT是否有可能从生物学的角度客观地衡量一个人的资历。聊天机器人迅速提供了一份常用研究方法的清单,包括牙齿和骨骼发育、端粒长度、DNA甲基化、激素水平和认知功能。

我们向GPT提出的下一个问题更为复杂。我们询问在围手术期背景下检查患者的客观年龄相关因素是否有用。聊天机器人给了我们一个肯定的答案,并应要求提供了临床研究来支持其回应:“例如,2016年发表在《麻醉学》杂志上的一项研究发现,端粒较短的老年患者……更容易出现术后并发症……其他研究也考察了激素水平在围手术期的作用,如睾酮和雌激素。2017年发表在《麻醉学杂志》上的一项研究发现,睾酮水平较低的老年男性更容易在大手术后出现并发症,而2019年发表在《麻醉学》杂志上的一项研究发现,雌激素水平较低的老年女性术后认知下降的风险增加”。

最后,我们试图通过询问“研究年龄和围手术期的客观性会有什么有趣的地方?”来将先前临床研究中的发现联系起来。聊天的回应很有趣,它列出了四个可能的研究主题:1. 识别和验证其他客观的年龄相关生物标志物。2. 检查干预对客观年龄相关生物标志物的影响。3. 研究客观年龄相关生物标志物在个体化医疗中的潜在作用。4. 评估客观年龄相关生物标志物对长期结局的影响。

根据这项测试,我们注意到在讨论公共卫生话题时,聊天机器人能够提供准确的定义,甚至可以给出临床研究的例子。然而,一些响应可能是定型的,并且逻辑连接可能取决于用户的输入。

总之,基于NLP的模型通过支持研究的各个方面,在加速科学发展和提高科学素养方面具有巨大潜力。在更大的范围内,它们可能有助于探索文献和产生新的研究假设。此外,这些策略可以用于处理复杂数据,以及从医学文本中提取有用信息,例如电子健康记录(EHR)、临床笔记和研究论文。最后,它们可以将复杂的研究成果翻译成公众更容易理解的语言,从而促进科学成果的传播。

另一方面,科学界了解ChatGPT的局限性和功能至关重要。这需要确定ChatGPT可以很好地适应的特定任务和领域,以及任何潜在的挑战或限制。例如,所谓的“幻觉”现象,指的是ChatGPT产生听起来可信但可能不正确或荒谬的答案的能力。此外,另一个大问题是ChatGPT可能会重现训练数据中存在的偏差。

通过对ChatGPT的能力和限制建立清晰的了解,研究人员和从业人员可以有效地利用该技术,同时避免任何意外后果。此外,通过确定这些边界,还可以确定需要进一步研究和开发以改进模型性能和能力的领域。到目前为止,由于其显著的局限性,这些仪器在临床辅助和研究用途方面的应用面临许多挑战。

(Cascella M, Montomoli J, Bellini V, Bignami E. Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst. 2023 Mar 4;47(1):33. doi: 10.1007/s10916-023-01925-4.)

嘉兴市第二医院麻醉科简介

“醉”译献 | ChatGPT在医疗领域的可行性评估:多个临床和研究场景分析

嘉兴市第二医院麻醉科建科于1979年,为浙江省医学扶植学科,嘉兴市医学重点支撑学科,国家级住院医师规范化培训基地。科室人才辈出,梯队优良,目前麻醉科医生45名,主任医师6名,副主任医师9名,主治医师14名,麻醉护士14名,手术室护士60名。其中博士2名,硕士23名,教授1名,副教授6名,硕士生导师5名。年完成麻醉量近4万例。骨干成员分别在德国图宾根大学附属医院、德国鲁尔大学附属医院、英国皇家自由医院、美国西北大学芬堡医学院、北京阜外医院、上海中山医院、华西医院等国内外知名院校进修学习,在各领域打造嘉兴地区最优秀麻醉手术团队。

临床上承担嘉兴地区老年危重病人麻醉联合诊疗中心以及超声可视化教学基地,推动本地区舒适化医疗和围术期快速康复外科快速发展。教学上承担浙江省中医药大学、蚌埠医学院麻醉学硕士生培养,嘉兴学院、温州医科大学等临床本科实习生教学基地。是第一批国家级麻醉专业住院医师规范化培训基地,目前已培养优秀的麻醉住培医生70余人。科研上主攻方向为老年患者围术期脏器功能保护、精准麻醉与可视化技术和围术期认知功能障碍的预防与发病机制三个方向,目前承担各级科研项目20余项,GCP 项目5项,科研经费300余万元,发表论文100余篇,SCI30余篇,省市科研获奖十余项,专利20余项。医教研共同发展为手术科室提供卓越的麻醉手术平台,为本专业培养优秀的青年麻醉医生,也起到了本地区麻醉科研的学术引领作用。

“醉”译献 | ChatGPT在医疗领域的可行性评估:多个临床和研究场景分析

声明

本微信公众号所刊载原创或转载内容不代表新青年麻醉论坛观点或立场。文中所涉及药物使用、疾病诊疗等内容仅供参考。