ChatGPT在美国放射学委员会考试中的表现：优势与局限性并存

文章主题：ChatGPT, 美国放射学委员会, GPT-3.5, GPT-4

在本周六出版的《放射学》杂志上，一项来自加拿大的研究成果引人关注。研究者们宣布，经过最新版本升级的ChatGPT已成功通过美国放射学委员会的质量评估。这一成果无疑突显了大型语言模型在医学领域的巨大潜力，然而同时也暴露出一些错误答案，提醒人们在依赖这些智能系统时，仍需进行必要的核实和校正。

为深入评价ChatGPT在美国放射学委员会考试中的性能及其实际应用价值，多伦多大学的科研团队首先对其进行了严格的测试。本次测试共涵盖了150道题目，其风格、内容和难度均与加拿大皇家学院以及美国放射学委员会的考试相仿。值得注意的是，这些题目并未包含任何图像，主要分为两大类别：低阶思维问题（包括知识回忆和基本理解）和高阶思维问题（涉及应用、分析、综合以及影像学表现描述、临床管理、计算和分类、疾病关联等）。通过这种设置，研究人员旨在全面了解ChatGPT在不同层次上的思考能力，从而揭示其在放射学领域的潜在优势和不足之处。

在一项针对自然语言处理模型的研究中，科学家们对两种不同的模型进行了比较，这两种模型分别是基于GPT-3.5的ChatGPT和GPT-4。研究发现，ChatGPT的准确率达到了令人满意的69%，几乎达到了及格线的70%。然而，当面临更高层次的思维问题时，其准确率下降到60%，表现相对较差。相比之下，GPT-4展现了更出色的性能，其准确率高达81%，并且在处理高阶思维问题时也表现出了81%的准确率，明显优于GPT-3.5。然而，GPT-4在低阶思维问题上的准确率仅为80%，并且错了12道题，相比之下，GPT-3.5在这12道题中全部答对，这引发了研究团队对GPT-4收集信息可靠性的质疑。

两项研究均指出，ChatGPT存在提供错误答案的潜在风险。若仅依赖其获取信息，则存在极大风险。原因在于，人们可能未能察觉到所得到的答案并不准确，这也是ChatGPT当前面临的最大挑战。

(责任编辑：毕安吉)

ChatGPT在美国放射学委员会考试中的表现：优势与局限性并存

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章