人工智能聊天机器人ChatGPT在放射科考试中的表现

文章主题：人工智能聊天机器人, ChatGPT, 放射科医师, 专业考试

在2023年的5月16日，《放射学》杂志上，加拿大多伦多大学的研究者发布了一项令人瞩目的研究成果，他们的人工智能聊天机器人ChatGPT（Chat Generative Pre-trained Transformer）成功通过了放射科医师的专业考试。这一突破性的成果，标志着人工智能在医学领域的应用达到了新的高度。为了评估ChatGPT的能力，研究者设计了一套包含150道选择题的测试，模仿了加拿大皇家学院和美国放射科医师委员会的考试形式、内容和难度。值得注意的是，由于ChatGPT当时尚未具备处理图像的能力，所以在这次测试中，研究者仅使用了文本题目。在测试过程中，研究者将这150道题目分给了两个版本的ChatGPT：GPT-3.5和更新的GPT-4。这样做的目的是为了让研究者对比这两个版本在同一考试中的表现，以便进一步优化ChatGPT的性能。

在最近的考试中，GPT-4展现了高达81%的正确率（答题121/150），这一数字甚至超过了70%的及格标准。相比之下，GPT-3.5仅能达到69%的正确率（答题104/150），几乎达到了及格线。尽管聊天机器人的表现相当出色，但仍存在一些令人不安的不准确之处。值得注意的是，该研究的资深作者、多伦多总医院大学医学影像中心的腹部放射科医生兼技术负责人Rajesh Bhayana博士指出：“放射科医生在解读医学图像时需要完成三个关键步骤：首先，发现并识别问题；其次，运用高级推理来深入理解所发现的含义；最后，将这些发现有效地传达给患者和其他医疗专业人士。”她进一步补充道，“尽管人工智能在放射科领域的应用已经取得了很多进展，但大多数研究都集中在计算机视觉方面。然而，像ChatGPT这样的语言模型实际上正在执行第二个和第三个步骤——高级推理和语言任务。”事实上，这项研究表明，ChatGPT在放射科背景下的性能非常出色，这突显了大型语言模型的巨大潜力。然而，它也突显了当前使其可靠性的局限性。因此，为了确保人工智能在医疗领域的应用能够取得成功，我们需要深入研究这些限制，并努力克服它们。

人工智能聊天机器人ChatGPT在放射科考试中的表现

在本研究中，我们关注到认知智能助手GPT-4在放射科领域的表现。根据研究者的分类，问题可以分为低阶思维（如知识回忆和基本理解）和高阶思维（包括应用、分析和综合）。进一步地，高阶思维问题可以根据其类型（例如，描述影像发现、临床管理、计算和分类或疾病关联）进行划分。在此对比中，GPT-4在处理高阶思维问题时展现出更高的性能，尤其在描述影像发现和应用概念方面，其得分分别达到了85%和90%。本研究的初衷是探讨ChatGPT在放射科环境下的表现，以便在高级推理和基本知识方面取得更好的结果。令人意外的是，GPT-4在两个关键领域均取得了优秀的成绩，显示出对放射科特定语言背景的更深入理解。这将对放射科医生的工作效率和治疗效果产生重要影响。值得注意的是，相较于GPT-3.5，GPT-4在高级推理能力上实现了显著的提升。这一发现强调了这些模型在放射科及其他医学领域内的巨大潜力。据Bhayana博士所述，我们对GPT-4的表现感到非常惊喜，因为这意味着这些模型在未来有望在更多医学领域发挥重要作用。

众多健康科技领域的专家，例如Bhayana博士，都认为大型语言模型（LLM），如ChatGPT，将在未来改变人类与技术的互动方式，尤其在医学领域具有重大影响。这些模型已被谷歌、必应等搜索引擎，以及Epic、Nuance等电子病历和医学口述软件所接纳。然而，这还远远不够，更多的先进应用场景即将出现，进一步推动医疗保健的发展。Bhayana博士坚信，随着模型的不断优化和发展，未来它们能精准回答患者的问题，协助医生进行诊断，并指导治疗决策。对于放射科而言，她预期LLM将有力提升放射科医生的能力，使其工作更高效、更有成效。尽管我们还未达到那一步，当前的模型仍不够可靠，无法应用于临床实践，但她强调，我们正朝着正确的方向快速发展。

人工智能聊天机器人ChatGPT在放射科考试中的表现

在放射科领域，LLM的最大局限性或许在于其对视觉数据的解读能力，这恰恰是该领域至关重要的一环。对此，Castro博士指出，一些知名的LLM模型，如ChatGPT，因其“幻觉”倾向而臭名昭著，即它们以过于自信的态度提供不准确的信息。Bhayana博士也提到，尽管GPT-4相较于GPT-3.5在“幻觉”现象上有所改善，但仍然发生的频率过高，不能完全依赖其应用于临床实践。因此，医生和患者应当充分了解这些模型的优点和限制，包括它们当前无法成为唯一的决策依据。Bhayana博士进一步强调。Castro博士也认同，在标准化考试中获得更高的分数，并不能直接反映个体对放射科等医学主题的理解程度，它只能证明GPT-4在基于其训练过程中获取的大量信息进行模式识别方面更为出色。尽管GPT-4取得了令人振奋的成果，但Castro博士仍强调，“要在实际临床环境中确保AI工具的准确性、安全性和价值，仍有许多工作需要。”

您怎么看《人工智能聊天机器人ChatGPT考过放射科，能力有多强？》，欢迎在评论区分享您的看法！

如果感兴趣，欢迎点赞关注转发给朋友！

人工智能聊天机器人ChatGPT在放射科考试中的表现

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

AIGC ChatGPT 博士期刊重大

相关文章