文章主题:ChatGPT, 美国放射学委员会, GPT-3.5, GPT-4
在本周六出版的《放射学》杂志上,一项来自加拿大的研究成果引人关注。研究者们宣布,经过最新版本升级的ChatGPT已成功通过美国放射学委员会的质量评估。这一成果无疑突显了大型语言模型在医学领域的巨大潜力,然而同时也暴露出一些错误答案,提醒人们在依赖这些智能系统时,仍需进行必要的核实和校正。
为深入评价ChatGPT在美国放射学委员会考试中的性能及其实际应用价值,多伦多大学的科研团队首先对其进行了严格的测试。本次测试共涵盖了150道题目,其风格、内容和难度均与加拿大皇家学院以及美国放射学委员会的考试相仿。值得注意的是,这些题目并未包含任何图像,主要分为两大类别:低阶思维问题(包括知识回忆和基本理解)和高阶思维问题(涉及应用、分析、综合以及影像学表现描述、临床管理、计算和分类、疾病关联等)。通过这种设置,研究人员旨在全面了解ChatGPT在不同层次上的思考能力,从而揭示其在放射学领域的潜在优势和不足之处。
在一项针对自然语言处理模型的研究中,科学家们对两种不同的模型进行了比较,这两种模型分别是基于GPT-3.5的ChatGPT和GPT-4。研究发现,ChatGPT的准确率达到了令人满意的69%,几乎达到了及格线的70%。然而,当面临更高层次的思维问题时,其准确率下降到60%,表现相对较差。相比之下,GPT-4展现了更出色的性能,其准确率高达81%,并且在处理高阶思维问题时也表现出了81%的准确率,明显优于GPT-3.5。然而,GPT-4在低阶思维问题上的准确率仅为80%,并且错了12道题,相比之下,GPT-3.5在这12道题中全部答对,这引发了研究团队对GPT-4收集信息可靠性的质疑。
两项研究均指出,ChatGPT存在提供错误答案的潜在风险。若仅依赖其获取信息,则存在极大风险。原因在于,人们可能未能察觉到所得到的答案并不准确,这也是ChatGPT当前面临的最大挑战。
(责任编辑:毕安吉)
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!