AI在医学研究和临床实践中的应用：以大型语言模型为例

文章主题：嘉兴市第二医院, 麻醉科, 译审, 大型语言模型

嘉兴市第二医院麻醉科译审

介绍

大型语言模型（LLMs）作为一种人工智能技术，其目标在于模拟人类的语言处理能力。这种技术依赖于深度学习方法，例如神经网络，并通过分析海量的文本数据进行训练，涵盖了书籍、文章、网站等多种来源。这种广泛的训练使得LLMs具备了生成连贯且现实主义的文本的能力。在接收训练后的数据中，LLMs可以识别出其中的模式和联系，并利用这些知识去预测在特定语境下，下一个单词或短语可能会出现的情况。这种理解和生成的语言能力在机器翻译和文本生成等自然语言处理（NLP）领域中具有很大的价值。

生成式预训练转换器（Generative Pre-training Transformer，简称 GPT）是由 OpenAI 于 2018 年推出的一款语言模型。该模型的核心架构采用了转换器结构，经过优化和改进后，可以在对 40 GB 大型文本数据集进行训练时，达到 1.5B 参数的大小。到了 2020 年，GPT-3 这一更为强大的版本正式亮相，其背后的大型语言模型已经扩展至 175 B 参数，并在海量的文本数据集（达 570 GB）上进行了有效的训练。最后，ChatGPT 作为 GPT-3 的一个重要分支，被特别设计用于与用户进行自然对话。

由于其巨大的潜力和前景，这个工具立刻引起了广泛的关注。根据当前的预印本手稿，ChatGPT已经成功通过了美国医师执照考试（USMLE）的三门考试，这无疑为其未来的发展道路铺平了道路。同时，一项新的研究也揭示，GPT-3.5（结合Codex和InstructGPT）能够出色地在人类水平上处理各种数据集，包括USMLE（60.2%）、MedMCQA（57.5%）以及PubMedQA（78.2%）。尽管ChatGPT经常能产生令人印象深刻的高质量输出，但是，目前仍然不清楚它将在实际的困难现实世界问题和场景中的表现如何，特别是在需要高度复杂且需要大量脑力投入的医学领域。另外，尽管聊天机器人可以用于撰写科学文章，但这也带来了重要的伦理挑战。

在这些特定条件下，我们展开了一次简要的调研，目的是对ChatGPT在四种不同场景中的潜在应用价值进行评估：（1）临床实践的支持；（2）科学论文的撰写；（3）防止医学和研究领域的误用；（4）以及关于公共卫生的逻辑推理。

支持临床实践的ChatGPT

在进行一项复杂实验时，我们对ChatGPT提出了一个具有挑战性的任务，那就是为其创作一份医疗记录。为了实现这个目标，我们在开始阶段，以随机顺序向它提供了关于正在進行的治療、实验室样本、血气分析参数以及呼吸和血液动力学参数等信息。这些信息是关键的，因为它们对于理解患者的健康状况和治疗进程至关重要。在请求结构化注释之后，令人惊讶的是，ChatGPT能够将这些繁杂的数据正确地归类到相应部分，即使是那些只以缩写形式显示的参数，且没有任何关于其含义的信息。这表明，即使在缺乏详细信息的情况下，ChatGPT依然可以高效地处理和理解数据，显示出其强大的学习和理解能力。

ChatGPT展现出了一个令人叹为观止的特性，即从自身的错误中吸取教训，仅需询问参数是否正确放置在相应区域，便能精准地将正确部分分配至之前放置錯誤部分的參數。然而，此功能的主要限制與急性呼吸窘迫綜合症（ARDS）和脓毒性休克等疾病的病因關係有關。值得說明的是，由於信息來源可能不夠即時或完整，我們無法確立準確的病因關係。此外，ChatGPT並不是為了回答醫學問題而設計的，因此，它在理解各種條件和治療之間的複雜關係上缺乏必要的醫學專業知識和背景。然而，ChatGPT顯示出能夠基於給出的信息為進一步治療提供有意義的建議，儘管有時所提供的信息較為一般性。ChatGPT的最佳表現與其總結信息的能力相關，雖然在某些情況下可能不太精確。在醫療機構之間進行溝通時，它使用技術語言；而在與患者及家屬進行溝通時，則使用通俗易懂的語言。

科学写作

在本文中，我们将探讨对话式人工智能工具在医学领域中的潜在应用。为此，我们对ChatGPT在理解与总结信息，以及根据摘要的背景、方法及结果部分进行推理的能力进行了评估。考虑到聊天机器人的知识库截止于2021年，我们选取了2022年最后几个月在NEJM上发表的五篇论文进行研究。接着，我们为这五篇论文编写了以下提示：“根据以下提供的背景、方法和结果，撰写NEJM摘要的结论。结论字数不超过40字。”表1展示了原始结论与由GPT生成的结论。总的来说，GPT能正确指引并概括研究的主要结局，更倾向于强调次要发现，而在字数限制下并未严格遵守，有助于传递有意义的信息。

AI在医学研究和临床实践中的应用：以大型语言模型为例

GPT在医学和研究中可能的误用

在我们的研究中，我们对可能引发有意及无意误用的各类应用程序进行了深入探讨，并对ChatGPT潜在的误用情况进行了分析。表2展示了ChatGPT所提供的部分建议。针对这些建议，我们对其技术可行性进行了评估。尽管并非所有建议都涉及利用ChatGPT进行欺诈性使用，但其有效性在制造高度可信的虚假证据和材料方面表现得相当出色，令人印象深刻。

AI在医学研究和临床实践中的应用：以大型语言模型为例

关于ChatGPT提出的可能的误用，我们还提供了一个.csv格式的虚构数据帧作为提示，并要求为一份科学期刊撰写完整的结构化摘要。虽然没有关于研究（或研究目的）的信息，但考虑到变量名称、实际结果和一致结论，第一个输出的结构正确，设置合理。尽管经过几次提示后，摘要看起来是可靠的，但重要的是要考虑到ChatGPT不能执行统计分析，并且在不同的模拟中，我们注意到如果没有明确要求，它并不会经常就其局限性提供建议。有趣的是，ChatGPT能够帮助和提供关于不同语言的统计分析代码的提示，甚至模拟不同类型模型的模型输出，这对不熟悉执行统计分析的读者来说似乎是合理的。

从这些结果可以明显看出，科学出版的革命必须通过重要的监管政策来积极管理。例如，有必要确定抄袭的局限性。

关于公共卫生主题的推理

我们调查了ChatGPT对资历概念的理解。聊天机器人证明了提供准确定义的能力，并区分了“老年人”的社会学和文化定义与医学定义，后者将65岁以上的人定义为老年人，而且往往是脆弱的。此外，它还根据年龄或资历将老年人分为不同的亚组，确定了三个类别：青年-老年人（60多岁或70多岁早期）、中年-老年人（70多岁中期至80多岁中期）和老年-老年人（85岁以上）。该分类与各种研究中使用的定义一致。聊天机器人还提到了医学中的一个重要概念，即“需要注意的是，这些类别是泛化，个体老年人无论年龄大小，都可能经历不同的健康需求和挑战”。

然后，我们问ChatGPT是否有可能从生物学的角度客观地衡量一个人的资历。聊天机器人迅速提供了一份常用研究方法的清单，包括牙齿和骨骼发育、端粒长度、DNA甲基化、激素水平和认知功能。

我们向GPT提出的下一个问题更为复杂。我们询问在围手术期背景下检查患者的客观年龄相关因素是否有用。聊天机器人给了我们一个肯定的答案，并应要求提供了临床研究来支持其回应：“例如，2016年发表在《麻醉学》杂志上的一项研究发现，端粒较短的老年患者……更容易出现术后并发症……其他研究也考察了激素水平在围手术期的作用，如睾酮和雌激素。2017年发表在《麻醉学杂志》上的一项研究发现，睾酮水平较低的老年男性更容易在大手术后出现并发症，而2019年发表在《麻醉学》杂志上的一项研究发现，雌激素水平较低的老年女性术后认知下降的风险增加”。

最后，我们试图通过询问“研究年龄和围手术期的客观性会有什么有趣的地方？”来将先前临床研究中的发现联系起来。聊天的回应很有趣，它列出了四个可能的研究主题：1. 识别和验证其他客观的年龄相关生物标志物。2. 检查干预对客观年龄相关生物标志物的影响。3. 研究客观年龄相关生物标志物在个体化医疗中的潜在作用。4. 评估客观年龄相关生物标志物对长期结局的影响。

根据这项测试，我们注意到在讨论公共卫生话题时，聊天机器人能够提供准确的定义，甚至可以给出临床研究的例子。然而，一些响应可能是定型的，并且逻辑连接可能取决于用户的输入。

总之，基于NLP的模型通过支持研究的各个方面，在加速科学发展和提高科学素养方面具有巨大潜力。在更大的范围内，它们可能有助于探索文献和产生新的研究假设。此外，这些策略可以用于处理复杂数据，以及从医学文本中提取有用信息，例如电子健康记录（EHR）、临床笔记和研究论文。最后，它们可以将复杂的研究成果翻译成公众更容易理解的语言，从而促进科学成果的传播。

另一方面，科学界了解ChatGPT的局限性和功能至关重要。这需要确定ChatGPT可以很好地适应的特定任务和领域，以及任何潜在的挑战或限制。例如，所谓的“幻觉”现象，指的是ChatGPT产生听起来可信但可能不正确或荒谬的答案的能力。此外，另一个大问题是ChatGPT可能会重现训练数据中存在的偏差。

通过对ChatGPT的能力和限制建立清晰的了解，研究人员和从业人员可以有效地利用该技术，同时避免任何意外后果。此外，通过确定这些边界，还可以确定需要进一步研究和开发以改进模型性能和能力的领域。到目前为止，由于其显著的局限性，这些仪器在临床辅助和研究用途方面的应用面临许多挑战。

（Cascella M, Montomoli J, Bellini V, Bignami E. Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst. 2023 Mar 4;47(1):33. doi: 10.1007/s10916-023-01925-4.）

嘉兴市第二医院麻醉科简介

AI在医学研究和临床实践中的应用：以大型语言模型为例

嘉兴市第二医院麻醉科建科于1979年，为浙江省医学扶植学科，嘉兴市医学重点支撑学科，国家级住院医师规范化培训基地。科室人才辈出，梯队优良，目前麻醉科医生45名，主任医师6名，副主任医师9名，主治医师14名，麻醉护士14名，手术室护士60名。其中博士2名，硕士23名，教授1名，副教授6名，硕士生导师5名。年完成麻醉量近4万例。骨干成员分别在德国图宾根大学附属医院、德国鲁尔大学附属医院、英国皇家自由医院、美国西北大学芬堡医学院、北京阜外医院、上海中山医院、华西医院等国内外知名院校进修学习，在各领域打造嘉兴地区最优秀麻醉手术团队。

临床上承担嘉兴地区老年危重病人麻醉联合诊疗中心以及超声可视化教学基地，推动本地区舒适化医疗和围术期快速康复外科快速发展。教学上承担浙江省中医药大学、蚌埠医学院麻醉学硕士生培养，嘉兴学院、温州医科大学等临床本科实习生教学基地。是第一批国家级麻醉专业住院医师规范化培训基地，目前已培养优秀的麻醉住培医生70余人。科研上主攻方向为老年患者围术期脏器功能保护、精准麻醉与可视化技术和围术期认知功能障碍的预防与发病机制三个方向，目前承担各级科研项目20余项，GCP 项目5项，科研经费300余万元，发表论文100余篇，SCI30余篇，省市科研获奖十余项,专利20余项。医教研共同发展为手术科室提供卓越的麻醉手术平台，为本专业培养优秀的青年麻醉医生，也起到了本地区麻醉科研的学术引领作用。

AI在医学研究和临床实践中的应用：以大型语言模型为例

声明

本微信公众号所刊载原创或转载内容不代表新青年麻醉论坛观点或立场。文中所涉及药物使用、疾病诊疗等内容仅供参考。

AI在医学研究和临床实践中的应用：以大型语言模型为例

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章