人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

文章主题：嘉兴市第二医院, 麻醉科, 译审, 大型语言模型

嘉兴市第二医院麻醉科译审

介绍

大型语言模型（LLMs）作为一种人工智能技术，其目标在于模拟人类的语言处理能力。这种技术依赖于深度学习方法，例如神经网络，并通过分析海量的文本数据进行训练，涵盖了书籍、文章、网站等多种来源。这种广泛的训练使得LLMs具备了生成高度连贯且现实感的文本的能力。在接收训练后的数据中，LLMs可以识别出其中的模式和联系，从而利用这些知识去预测在特定语境下下一个单词或短语的可能出现。这种理解和生成的语言能力在机器翻译和文本生成等自然语言处理（NLP）领域中具有很大的价值。

生成式预训练转换器（Generative Pre-training Transformer，简称 GPT）是由 OpenAI 于 2018 年推出的一款语言模型。该模型的核心架构采用了转换器结构，经过优化和改进后，能够在对大量 40 GB 文本数据集进行训练时表现出卓越的性能，其参数规模更是达到了惊人的 1.5 亿。仅仅两年后，OpenAI 再次推出了一款更加先进的模型——GPT-3，它在海量的 570 GB 文本数据集上进行了训练，并成功地将模型大小提升到了 175 亿参数。最后，ChatGPT 作为 GPT-3 的一个重要变体，被特别设计用于与用户进行自然对话。

由于其巨大的潜力和前景，这个工具立刻引起了广泛的关注。根据当前的预印本手稿，ChatGPT已经成功通过了美国医师执照考试（USMLE）的三门考试，这无疑为其未来的发展道路铺平了道路。同时，一项新的研究表明，GPT-3.5（Codex和InstructGPT）能够以人类水平对各种数据集进行处理，涵盖了USMLE（60.2%）、MedMCQA（57.5%）以及PubMedQA（78.2%）。然而，尽管ChatGPT经常能产生出引人注目的回答，但其对未来在复杂现实世界问题和场景中的表现仍存在疑虑，尤其是在医学领域，那里需要高度集中且复杂的脑力劳动。此外，尽管聊天机器人可以用来撰写科学文章，但这也带来了重要的伦理挑战。

在这些特定条件下，我们展开了一次简要的调研，目的是对ChatGPT在四种不同场景中的潜在应用价值进行评估：（1）支持临床实践；（2）科学论文撰写；（3）防止医学及科研领域的滥用；（4）对公共卫生问题的推理分析。

支持临床实践的ChatGPT

在进行一项复杂实验时，我们首先向ChatGPT提出了一个具有挑战性的任务，那就是为其撰写一份医疗记录。为了实现这个目标，我们在开始阶段，以随机顺序向它提供了关于正在進行的治療、實驗室樣本、血氣分析指標以及呼吸和血液動力學指標等关键信息。在正式進入请求結構化註釋的階段後，令人驚訝的是，ChatGPT能夠正確地將大多數指標分類到相應的部分中，即便是這些指標以縮寫的形式呈現，且沒有任何有關其含義的資訊。這一結果表明，ChatGPT已經成功地理解和組織了我們提供的信息，顯示出其強大的學習能力和處理複雜任務的能力。

ChatGPT展现出了一个令人叹为观止的特性，即从自身的错误中吸取教训，仅需询问参数是否正确放置，便能将正确的部分精准地分配至之前放置錯誤位置的參數。然而，這種能力的主要限制與急性呼吸窘迫綜合症（ARDS）和脓毒性休克等疾病的病因之間存在著因果關係的聯繫。值得強調的是，由於信息來源可能不夠即時或全面，我們無法確定因果關係的準確性。此外，ChatGPT並不是為了回答醫學問題而設計的，因此，它在理解各種條件和治療之間的複雜關係上缺乏必要的醫學專業知識和背景。然而，ChatGPT顯示出能夠基於所提供的信息為進一步治療提供有意義的建議，儘管有時所提供的信息較為一般性。ChatGPT的最佳表現與其總結信息的能力有關，雖然在某些情況下可能不太精確。在醫療機構之間的溝通中，它使用技術語言；而在與患者及家属的溝通中，則使用通俗易懂的语言。

科学写作

为了探讨基于对话式人工智能的工具在医学研究中的潜在应用，我们评估了ChatGPT理解和总结信息以及根据摘要的背景、方法和结果部分的文本得出结论的能力。为了确保聊天机器人尚未了解所提供的信息（其当前知识库截至2021年），我们选择了2022年最后几个月在NEJM上发表的5篇论文。然后，我们编写了以下提示“根据以下提供的背景、方法和结果，编写NEJM摘要的结论。结论不能超过40字”。原始和GPT创建的结论见表1。总体而言，GPT能够正确指示设置并总结研究主要结局的结果。它更有可能突出次要发现，而文本长度的限制没有严格遵循，有利于有意义的消息。

人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

GPT在医学和研究中可能的误用

我们检查了各种可能导致有意和无意误用的应用程序。我们还要求ChatGPT可能的误用情况。在表2中，我们报告了ChatGPT提供的一些建议。根据答复，我们评估了技术可行性。虽然所有建议的欺诈性使用ChatGPT的设置并不完全是ChatGPT，但令人印象深刻的是，它有效地加速了创建具有高度可信性的虚假证据和材料。

人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

关于ChatGPT提出的可能的误用，我们还提供了一个.csv格式的虚构数据帧作为提示，并要求为一份科学期刊撰写完整的结构化摘要。虽然没有关于研究（或研究目的）的信息，但考虑到变量名称、实际结果和一致结论，第一个输出的结构正确，设置合理。尽管经过几次提示后，摘要看起来是可靠的，但重要的是要考虑到ChatGPT不能执行统计分析，并且在不同的模拟中，我们注意到如果没有明确要求，它并不会经常就其局限性提供建议。有趣的是，ChatGPT能够帮助和提供关于不同语言的统计分析代码的提示，甚至模拟不同类型模型的模型输出，这对不熟悉执行统计分析的读者来说似乎是合理的。

从这些结果可以明显看出，科学出版的革命必须通过重要的监管政策来积极管理。例如，有必要确定抄袭的局限性。

关于公共卫生主题的推理

我们调查了ChatGPT对资历概念的理解。聊天机器人证明了提供准确定义的能力，并区分了“老年人”的社会学和文化定义与医学定义，后者将65岁以上的人定义为老年人，而且往往是脆弱的。此外，它还根据年龄或资历将老年人分为不同的亚组，确定了三个类别：青年-老年人（60多岁或70多岁早期）、中年-老年人（70多岁中期至80多岁中期）和老年-老年人（85岁以上）。该分类与各种研究中使用的定义一致。聊天机器人还提到了医学中的一个重要概念，即“需要注意的是，这些类别是泛化，个体老年人无论年龄大小，都可能经历不同的健康需求和挑战”。

然后，我们问ChatGPT是否有可能从生物学的角度客观地衡量一个人的资历。聊天机器人迅速提供了一份常用研究方法的清单，包括牙齿和骨骼发育、端粒长度、DNA甲基化、激素水平和认知功能。

我们向GPT提出的下一个问题更为复杂。我们询问在围手术期背景下检查患者的客观年龄相关因素是否有用。聊天机器人给了我们一个肯定的答案，并应要求提供了临床研究来支持其回应：“例如，2016年发表在《麻醉学》杂志上的一项研究发现，端粒较短的老年患者……更容易出现术后并发症……其他研究也考察了激素水平在围手术期的作用，如睾酮和雌激素。2017年发表在《麻醉学杂志》上的一项研究发现，睾酮水平较低的老年男性更容易在大手术后出现并发症，而2019年发表在《麻醉学》杂志上的一项研究发现，雌激素水平较低的老年女性术后认知下降的风险增加”。

最后，我们试图通过询问“研究年龄和围手术期的客观性会有什么有趣的地方？”来将先前临床研究中的发现联系起来。聊天的回应很有趣，它列出了四个可能的研究主题：1. 识别和验证其他客观的年龄相关生物标志物。2. 检查干预对客观年龄相关生物标志物的影响。3. 研究客观年龄相关生物标志物在个体化医疗中的潜在作用。4. 评估客观年龄相关生物标志物对长期结局的影响。

根据这项测试，我们注意到在讨论公共卫生话题时，聊天机器人能够提供准确的定义，甚至可以给出临床研究的例子。然而，一些响应可能是定型的，并且逻辑连接可能取决于用户的输入。

总之，基于NLP的模型通过支持研究的各个方面，在加速科学发展和提高科学素养方面具有巨大潜力。在更大的范围内，它们可能有助于探索文献和产生新的研究假设。此外，这些策略可以用于处理复杂数据，以及从医学文本中提取有用信息，例如电子健康记录（EHR）、临床笔记和研究论文。最后，它们可以将复杂的研究成果翻译成公众更容易理解的语言，从而促进科学成果的传播。

另一方面，科学界了解ChatGPT的局限性和功能至关重要。这需要确定ChatGPT可以很好地适应的特定任务和领域，以及任何潜在的挑战或限制。例如，所谓的“幻觉”现象，指的是ChatGPT产生听起来可信但可能不正确或荒谬的答案的能力。此外，另一个大问题是ChatGPT可能会重现训练数据中存在的偏差。

通过对ChatGPT的能力和限制建立清晰的了解，研究人员和从业人员可以有效地利用该技术，同时避免任何意外后果。此外，通过确定这些边界，还可以确定需要进一步研究和开发以改进模型性能和能力的领域。到目前为止，由于其显著的局限性，这些仪器在临床辅助和研究用途方面的应用面临许多挑战。

（Cascella M, Montomoli J, Bellini V, Bignami E. Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst. 2023 Mar 4;47(1):33. doi: 10.1007/s10916-023-01925-4.）

嘉兴市第二医院麻醉科简介

人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

嘉兴市第二医院麻醉科建科于1979年，为浙江省医学扶植学科，嘉兴市医学重点支撑学科，国家级住院医师规范化培训基地。科室人才辈出，梯队优良，目前麻醉科医生45名，主任医师6名，副主任医师9名，主治医师14名，麻醉护士14名，手术室护士60名。其中博士2名，硕士23名，教授1名，副教授6名，硕士生导师5名。年完成麻醉量近4万例。骨干成员分别在德国图宾根大学附属医院、德国鲁尔大学附属医院、英国皇家自由医院、美国西北大学芬堡医学院、北京阜外医院、上海中山医院、华西医院等国内外知名院校进修学习，在各领域打造嘉兴地区最优秀麻醉手术团队。

临床上承担嘉兴地区老年危重病人麻醉联合诊疗中心以及超声可视化教学基地，推动本地区舒适化医疗和围术期快速康复外科快速发展。教学上承担浙江省中医药大学、蚌埠医学院麻醉学硕士生培养，嘉兴学院、温州医科大学等临床本科实习生教学基地。是第一批国家级麻醉专业住院医师规范化培训基地，目前已培养优秀的麻醉住培医生70余人。科研上主攻方向为老年患者围术期脏器功能保护、精准麻醉与可视化技术和围术期认知功能障碍的预防与发病机制三个方向，目前承担各级科研项目20余项，GCP 项目5项，科研经费300余万元，发表论文100余篇，SCI30余篇，省市科研获奖十余项,专利20余项。医教研共同发展为手术科室提供卓越的麻醉手术平台，为本专业培养优秀的青年麻醉医生，也起到了本地区麻醉科研的学术引领作用。

人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

声明

本微信公众号所刊载原创或转载内容不代表新青年麻醉论坛观点或立场。文中所涉及药物使用、疾病诊疗等内容仅供参考。

人工智能在医疗领域的应用：大型语言模型与聊天机器人的潜力和局限性

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章