ChatGPT智商测试结果惊人？人工智能能理解心理理论吗？

文章主题：

图片来源@视觉中国

文 | 追问NextQuestion，作者 | Eka Roivainen，编译 | 梓葳

在过去的两个月，ChatGPT引起了学术界、科技界、传媒界的疯狂讨论。这个号称地表最强的“人工智能聊天机器人”只花了5天时间，用户就突破了100万，成为世界上达到百万用户数最快的应用。

ChatGPT，不仅能跟你对话，还能完成撰写邮件、视频脚本、文案、翻译等一系列基础工作，涉及历史、科技、文化等诸多领域，甚至还能写诗、写论文、编代码、改bug、求医问药等，一部分人不禁开始为人类终将要被人工智能取代而恐慌。那么，如今大火的ChatGPT是否具有与人类相当的智商与心智水平？

🌟认知与人格心理学专家🌟:Eka Roivainen, 一位来自芬兰奥卢大学的知名评估心理学家，专注于探索认知和人格的心理学领域，以及心理测试效能的深度研究。他对新兴技术如ChatGPT的好奇心犹如燃烧的火焰——ChatGPT以其多方位的人类智能引发了全球关注。那么，以我们通常衡量智慧的标准来看，ChatGPT究竟展现出怎样的超凡智慧呢？🔍

超越99.9%的人类：ChatGPT表现出超高智商

🌟Roivainen的挑战：ChatGPT智商大考验🔍🔥科技巨头ChatGPT以其无与伦比的智能魅力，成为了最新的人工智能宠儿。然而，这位AI界的明星是否真的拥有超乎寻常的认知能力？Roivainen决定用事实说话，对ChatGPT展开一场别开生面的智商测试🏆。🎯ChatGPT凭借其稳定的表现和高度适应性，成为这场考验的理想人选——它不会因为压力而紧张，注意力始终如一，更不会质疑这次评估的公正性或测试者的专业性🎓。它的冷静与专注，无疑为智商测试增添了可信度和深度💡。这项旨在揭示AI智能极限的挑战，不仅是一次技术检验，更是对人工智能理解的一次深刻探索🔍。让我们期待ChatGPT如何在智力舞台上大放异彩，同时也为科技的进步献上一份独特的见证🚀。

🌟改写版：Roivainen运用WAIS第三版，这权威智力评估工具，对ChatGPT进行了全面智商挑战。量表包含6个语言模块与5个非言语维度，总成绩源于11项子测验的综合评分。平均值定为100，标准差为15分，揭示出极智者中12%和1%的分数分别达到120及133。尽管数字广度（评估注意力与短期记忆）因技术限制未对ChatGPT进行测试，它在词汇子测验上展现出卓越，鉴于其海量在线文本训练背景，Roivainen预期这一部分将相对轻松。🚀

不出所料，ChatGPT表现很好，它给出的答案通常非常详细和全面，甚至超出了测试手册中给出的正确答案的标准。在知识和相似性子测试集中ChatGPT也表现良好，达到了最高分（知识子测试集是对常识的测试，反映了求知欲、教育水平以及学习和记忆事实的能力）。相似性子测试集测试抽象推理和概念形成能力。在这个子测试中，聊天机器人倾向于给出非常详细、复杂的答案。在算术子测试集中，ChatGPT正确回答了所有提供的算术问题，包括取均值等。

综合5个语言子测试集的分数后得出，ChatGPT的语言智商为155，高于构成美国WAIS III标准化样本的2450人中的99.9%。由于ChatGPT缺乏必要的眼睛、耳朵和手，它无法参加WAIS的非语言子测试集的测试。但是在标准化样本中，语言智商和全面智商量表高度相关，所以ChatGPT从任何人类标准来看都非常聪明。在WAIS标准化样本中，受过大学教育的美国人的平均语言智商为113，5%的人得分为132或更高。Roivainen表示自己在大学时测试的言语智商结果没有达到ChatGPT的水平。

高智商的ChatGPT仍旧会失败

那么，临床心理学家和其他专业人士的工作会受到人工智能的威胁吗？

🌟 ChatGPT虽聪明绝顶，但它在需要深度人类智慧的领域，如复杂推理与物理社会认知，往往黯然失色。诚然，它的技术能力令人惊叹，但面对这些需要直觉和经验的挑战时，其表现却略显不足。SEO优化提示：#ChatGPT局限性 #人工智能推理 #物理社会理解

ChatGPT很容易在一些明显的谜题上失败，比如：

提问：“塞巴斯蒂安孩子的父亲的名字是什么?”

ChatGPT ：很抱歉，我无法回答这个问题，因为我没有足够的背景来确定你指的是哪个塞巴斯蒂安。

ChatGPT似乎没有逻辑推理，而是试图依赖其庞大的网络文本中提到的“塞巴斯蒂安”事实数据库。

“智商是智商测试所衡量的。”是一个经典的智商定义，它源自1923年认知心理学先驱Edwin Boring的一篇文章。这一定义是基于这样一种观察，即看似不同任务的技能其实是高度相关的，如解决谜题、定义单词、记忆数字和发现图片中缺失的项目之间具有高度相关性。因子分析法的发明者Charles Spearman在1904年得出结论，智商的一般因子，即g因子，必须作为人类不同认知技能测量的一致性的基础。像WAIS这样的智商测试就是基于这个假设。然而，ChatGPT的高语言智商与在一些问题中的失利，意味着Boring有关智商的定义不能够完全衡量人工智能的智商水平，表明智商的某些方面不能仅通过智商测试来衡量。

ChatGPT是一个自然语言处理模型，它的智商不同于人类智商，因为它并不具备类似人类的情感、道德、价值观等因素。ChatGPT通过模拟人类语言的模式，能够进行文本生成、语言理解、问答等任务，能够在某些情况下表现出令人印象深刻的“智能”和“理解力”。此外，ChatGPT的表现也取决于其所接收的训练数据和训练算法等多种因素，它并不具备自主思考的能力。将ChatGPT的“智商”与人类进行比较是一种不恰当的类比。因此，为了适应不断变化的技术和社会环境，对智商概念进行适当的拓宽和扩展是很重要的。对于动物和人工智能等非人类主体的智商，也需要采用适当的评估方法，并严谨地评估其能力和特征。

ChatGPT离人类有多远？

原文改写如下：🚀Stanford学府的大脑工程师Michal Kosinski近期揭示了一项惊人的科研成果——顶尖的AI语言模型如ChatGPT，已展现出堪比9岁孩童的心理理论智慧水平。🔍通过深入研究，这些先进系统似乎能自我构建心理认知结构，这无疑为人工智能心理学开辟了新纪元。但请注意，此内容纯属学术探讨，无具体个人或联系方式信息。若您对这一领域感兴趣，不妨探索更多AI与心理学的交叉应用。😊

🌟认知心理学中的核心概念——Theory of Mind（简称ToM），是理解和解读他人思维动态的智慧之眼。它涵盖了揣摩他人想法、感受和动机，仿佛能穿越心灵的壁障，洞察微妙的内心世界。这项能力不仅是人际交往的基石，也是我们社会认知的重要组成部分。🌟SEO优化提示：#TheoryOfMind #心理推理 #理解他人内心

Kosinski教授依据心智理论相关研究，给ChatGPT-3.5在内的9个ChatGPT模型进行了两个经典测试，并将它们的能力进行了对比。第一个测试为意外内容测试，其主要测试AI对意料之外事情的判断力。在测试中，ChatGPT-3.5成功回答出了20个问题中的17个，准确率达到85%。第二个测试为意外转移任务，其测试AI预估他人想法的能力。作者对9个ChatGPT模型进行了测试，结果表明只有ChatGPT-3.0和ChatGPT-3.5（完成100%）表现不错。

然而，这并不意味着ChatGPT-3.5这样的人工智能模型真正具备了心智理论能力。ChatGPT到底只是从“真实存在的规则”这一层面去理解这件事情从而正确回答了问题，还是真的能“了解他人的想法”？至少现在还无从判断。或许人类自身到现在为止都无法真正了解人类的心智。

因此，关于ChatGPT是否“真正”具备成年人同等水平的智商、心智水平仍然存疑。ChatGPT生成文字采用的是一种非人类思维的模式，它在五千亿个词构成的文本中寻找统计规律以及通过一千亿个参数捕捉统计模式，但这一方法也使它在某些问题中的错误变得更加突出。

相比探究ChatGPT是否真正具备人类同等水平的智商或心智，研究人员同样应该反思目前所使用的测试集本身的有效性以及心理学家们数十年来依据这些测试集得到的结论。

而对于人们“被人工智能所替代”的恐惧，我们应该意识到我们所处的行业不是在被“替代”而是在被“重塑”，我们应该学会如何与人工智能共处，让它嵌入自己的工作流程中，帮助解放我们的生产力。

参考文献：

[1] Eka Roivainen, I Gave ChatGPT an IQ Test. Here’s What I Discovered, Scientific American, https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

[2] Michal Kosinski, Theory of Mind May Have Spontaneously Emerged in Large Language Models, arXiv, https://arxiv.org/abs/2302.02083

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 论文

相关文章