文章主题:人工智能聊天机器人, ChatGPT, 放射科医师, 专业考试

666AI工具大全,助力做AI时代先行者!

在2023年的5月16日,《放射学》杂志上,加拿大多伦多大学的研究者发布了一项令人瞩目的研究成果,他们的人工智能聊天机器人ChatGPT(Chat Generative Pre-trained Transformer)成功通过了放射科医师的专业考试。这一突破性的成果,标志着人工智能在医学领域的应用达到了新的高度。为了评估ChatGPT的能力,研究者设计了一套包含150道选择题的测试,模仿了加拿大皇家学院和美国放射科医师委员会的考试形式、内容和难度。值得注意的是,由于ChatGPT当时尚未具备处理图像的能力,所以在这次测试中,研究者仅使用了文本题目。在测试过程中,研究者将这150道题目分给了两个版本的ChatGPT:GPT-3.5和更新的GPT-4。这样做的目的是为了让研究者对比这两个版本在同一考试中的表现,以便进一步优化ChatGPT的性能。

在最近的考试中,GPT-4展现了高达81%的正确率(答题121/150),这一数字甚至超过了70%的及格标准。相比之下,GPT-3.5仅能达到69%的正确率(答题104/150),几乎达到了及格线。尽管聊天机器人的表现相当出色,但仍存在一些令人不安的不准确之处。值得注意的是,该研究的资深作者、多伦多总医院大学医学影像中心的腹部放射科医生兼技术负责人Rajesh Bhayana博士指出:“放射科医生在解读医学图像时需要完成三个关键步骤:首先,发现并识别问题;其次,运用高级推理来深入理解所发现的含义;最后,将这些发现有效地传达给患者和其他医疗专业人士。”她进一步补充道,“尽管人工智能在放射科领域的应用已经取得了很多进展,但大多数研究都集中在计算机视觉方面。然而,像ChatGPT这样的语言模型实际上正在执行第二个和第三个步骤——高级推理和语言任务。”事实上,这项研究表明,ChatGPT在放射科背景下的性能非常出色,这突显了大型语言模型的巨大潜力。然而,它也突显了当前使其可靠性的局限性。因此,为了确保人工智能在医疗领域的应用能够取得成功,我们需要深入研究这些限制,并努力克服它们。

人工智能聊天机器人ChatGPT在放射科考试中的表现

在本研究中,我们关注到认知智能助手GPT-4在放射科领域的表现。根据研究者的分类,问题可以分为低阶思维(如知识回忆和基本理解)和高阶思维(包括应用、分析和综合)。进一步地,高阶思维问题可以根据其类型(例如,描述影像发现、临床管理、计算和分类或疾病关联)进行划分。在此对比中,GPT-4在处理高阶思维问题时展现出更高的性能,尤其在描述影像发现和应用概念方面,其得分分别达到了85%和90%。本研究的初衷是探讨ChatGPT在放射科环境下的表现,以便在高级推理和基本知识方面取得更好的结果。令人意外的是,GPT-4在两个关键领域均取得了优秀的成绩,显示出对放射科特定语言背景的更深入理解。这将对放射科医生的工作效率和治疗效果产生重要影响。值得注意的是,相较于GPT-3.5,GPT-4在高级推理能力上实现了显著的提升。这一发现强调了这些模型在放射科及其他医学领域内的巨大潜力。据Bhayana博士所述,我们对GPT-4的表现感到非常惊喜,因为这意味着这些模型在未来有望在更多医学领域发挥重要作用。

众多健康科技领域的专家,例如Bhayana博士,都认为大型语言模型(LLM),如ChatGPT,将在未来改变人类与技术的互动方式,尤其在医学领域具有重大影响。这些模型已被谷歌、必应等搜索引擎,以及Epic、Nuance等电子病历和医学口述软件所接纳。然而,这还远远不够,更多的先进应用场景即将出现,进一步推动医疗保健的发展。Bhayana博士坚信,随着模型的不断优化和发展,未来它们能精准回答患者的问题,协助医生进行诊断,并指导治疗决策。对于放射科而言,她预期LLM将有力提升放射科医生的能力,使其工作更高效、更有成效。尽管我们还未达到那一步,当前的模型仍不够可靠,无法应用于临床实践,但她强调,我们正朝着正确的方向快速发展。

人工智能聊天机器人ChatGPT在放射科考试中的表现

在放射科领域,LLM的最大局限性或许在于其对视觉数据的解读能力,这恰恰是该领域至关重要的一环。对此,Castro博士指出,一些知名的LLM模型,如ChatGPT,因其“幻觉”倾向而臭名昭著,即它们以过于自信的态度提供不准确的信息。Bhayana博士也提到,尽管GPT-4相较于GPT-3.5在“幻觉”现象上有所改善,但仍然发生的频率过高,不能完全依赖其应用于临床实践。因此,医生和患者应当充分了解这些模型的优点和限制,包括它们当前无法成为唯一的决策依据。Bhayana博士进一步强调。Castro博士也认同,在标准化考试中获得更高的分数,并不能直接反映个体对放射科等医学主题的理解程度,它只能证明GPT-4在基于其训练过程中获取的大量信息进行模式识别方面更为出色。尽管GPT-4取得了令人振奋的成果,但Castro博士仍强调,“要在实际临床环境中确保AI工具的准确性、安全性和价值,仍有许多工作需要。”

您怎么看《人工智能聊天机器人ChatGPT考过放射科,能力有多强?》,欢迎在评论区分享您的看法!

如果感兴趣,欢迎点赞关注转发给朋友!

人工智能聊天机器人ChatGPT在放射科考试中的表现

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!