文章主题:文章关键词:ChatGPT,智商测试,心理测试有效性,意外内容测试,意外转移任务。
图片来源@视觉中国
文 | 追问NextQuestion,作者 | Eka Roivainen,编译 | 梓葳
在过去的两个月,ChatGPT引起了学术界、科技界、传媒界的疯狂讨论。这个号称地表最强的“人工智能聊天机器人”只花了5天时间,用户就突破了100万,成为世界上达到百万用户数最快的应用。
ChatGPT,不仅能跟你对话,还能完成撰写邮件、视频脚本、文案、翻译等一系列基础工作,涉及历史、科技、文化等诸多领域,甚至还能写诗、写论文、编代码、改bug、求医问药等,一部分人不禁开始为人类终将要被人工智能取代而恐慌。那么,如今大火的ChatGPT是否具有与人类相当的智商与心智水平?
Eka Roivainen,一位来自芬兰奥卢大学附属医院的评估心理学家,专注于研究认知和人格心理学领域,同时对心理测试的有效性也深感兴趣。当得知ChatGPT具备多项人类技能时,他感到十分好奇,想要从人类的角度来衡量ChatGPT的智能程度。
超越99.9%的人类:ChatGPT表现出超高智商因此,Roivainen开始对ChatGPT展开智商测试。他坚信,ChatGPT是进行此类测试的理想选择,因为它在测试过程中不会出现应试焦虑、注意力不集中,甚至放弃的情况,同时也不会对智商测试和测试人员产生任何质疑。
Roivainen运用韦氏成人智力量表第三版(the Wechsler adult intelligence scale, WAIS)对ChatGPT展开了一场智力检测。这个评估工具包含了6个语言子测试和5个非语言子测试,其最终的智商评分取决于所有11个子测试的平均分。设定平均智商为100分,测试量表的标准偏差为15分,这就意味着最聪明的10%和1%的人的智商分别可以达到120和133。在这6个语言测试中,第6个子测试是数字广度,主要用于考察注意力和短期记忆能力,但由于无法以文字形式展现,因此并未对ChatGPT进行此项测试。接下来,Roivainen从词汇子测试开始对ChatGPT进行智商测量。鉴于ChatGPT接受了大量的在线文本训练,Roivainen预期这场测试对于ChatGPT而言应该相对较为简单(词汇测试主要针对词汇和语言概念的形成进行评测)。
不出所料,ChatGPT表现很好,它给出的答案通常非常详细和全面,甚至超出了测试手册中给出的正确答案的标准。在知识和相似性子测试集中ChatGPT也表现良好,达到了最高分(知识子测试集是对常识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力)。相似性子测试集测试抽象推理和概念形成能力。在这个子测试中,聊天机器人倾向于给出非常详细、复杂的答案。在算术子测试集中,ChatGPT正确回答了所有提供的算术问题,包括取均值等。
综合5个语言子测试集的分数后得出,ChatGPT的语言智商为155,高于构成美国WAIS III标准化样本的2450人中的99.9%。由于ChatGPT缺乏必要的眼睛、耳朵和手,它无法参加WAIS的非语言子测试集的测试。但是在标准化样本中,语言智商和全面智商量表高度相关,所以ChatGPT从任何人类标准来看都非常聪明。在WAIS标准化样本中,受过大学教育的美国人的平均语言智商为113,5%的人得分为132或更高。Roivainen表示自己在大学时测试的言语智商结果没有达到ChatGPT的水平。
高智商的ChatGPT仍旧会失败那么,临床心理学家和其他专业人士的工作会受到人工智能的威胁吗?
ChatGPT虽然拥有高智商,但在需要人类推理和对物理和社会世界的理解等任务中,它的表现却并不理想,甚至可以说是以失败而闻名的。
ChatGPT很容易在一些明显的谜题上失败,比如:
提问:“塞巴斯蒂安孩子的父亲的名字是什么?”
ChatGPT :很抱歉,我无法回答这个问题,因为我没有足够的背景来确定你指的是哪个塞巴斯蒂安。
ChatGPT似乎没有逻辑推理,而是试图依赖其庞大的网络文本中提到的“塞巴斯蒂安”事实数据库。
“智商是智商测试所衡量的。”是一个经典的智商定义,它源自1923年认知心理学先驱Edwin Boring的一篇文章。这一定义是基于这样一种观察,即看似不同任务的技能其实是高度相关的,如解决谜题、定义单词、记忆数字和发现图片中缺失的项目之间具有高度相关性。因子分析法的发明者Charles Spearman在1904年得出结论,智商的一般因子,即g因子,必须作为人类不同认知技能测量的一致性的基础。像WAIS这样的智商测试就是基于这个假设。然而,ChatGPT的高语言智商与在一些问题中的失利,意味着Boring有关智商的定义不能够完全衡量人工智能的智商水平,表明智商的某些方面不能仅通过智商测试来衡量。
ChatGPT是一个自然语言处理模型,它的智商不同于人类智商,因为它并不具备类似人类的情感、道德、价值观等因素。ChatGPT通过模拟人类语言的模式,能够进行文本生成、语言理解、问答等任务,能够在某些情况下表现出令人印象深刻的“智能”和“理解力”。此外,ChatGPT的表现也取决于其所接收的训练数据和训练算法等多种因素,它并不具备自主思考的能力。将ChatGPT的“智商”与人类进行比较是一种不恰当的类比。因此,为了适应不断变化的技术和社会环境,对智商概念进行适当的拓宽和扩展是很重要的。对于动物和人工智能等非人类主体的智商,也需要采用适当的评估方法,并严谨地评估其能力和特征。
ChatGPT离人类有多远?在距今不久之前,斯坦福大学的Michal Kosinski教授发表了一篇论文,指出大型语言模型系统有可能具备自动生成心理理论的能力。例如,ChatGPT可能已经拥有了与9岁儿童相当的心理理解力。
心理理论(Theory of Mind, ToM)是一种重要的心理学概念,也被称作“心理推理能力”。它指的是人们理解并识别人类内心状态的能力,包括但不限于对他人的意图、信仰以及情感等方面的推测。这种能力在人际交往和社会生活中起着至关重要的作用。
根据Kosinski教授的研究,他利用心智理论的相关成果,对包括ChatGPT-3.5在内的9种ChatGPT模型进行了两个关键性的测试,并对其性能进行了比较。其中,第一个测试主要针对AI对意外事件的判断力,结果显示ChatGPT-3.5在回答20个问题中的17个,准确率达到了85%。而第二个测试则着重考察AI预测他人想法的能力,经过作者对9个ChatGPT模型的测试,只有ChatGPT-3.0和ChatGPT-3.5的表现超过了预期(分别完成了100%)。
尽管如此,我们不能排除人工智能模型,如ChatGPT-3.5,是否具备真正的认知能力。实际上,ChatGPT所表现出的理解能力,可能仅仅是它遵循“现实存在规则”来回答问题的结果,而不是真正地理解或感知其他人的思维。至少目前我们还无法对此做出确切的判断。也许人类自身尚无法完全理解自己内心的思考过程。
因此,关于ChatGPT是否“真正”具备成年人同等水平的智商、心智水平仍然存疑。ChatGPT生成文字采用的是一种非人类思维的模式,它在五千亿个词构成的文本中寻找统计规律以及通过一千亿个参数捕捉统计模式,但这一方法也使它在某些问题中的错误变得更加突出。
相比探究ChatGPT是否真正具备人类同等水平的智商或心智,研究人员同样应该反思目前所使用的测试集本身的有效性以及心理学家们数十年来依据这些测试集得到的结论。
而对于人们“被人工智能所替代”的恐惧,我们应该意识到我们所处的行业不是在被“替代”而是在被“重塑”,我们应该学会如何与人工智能共处,让它嵌入自己的工作流程中,帮助解放我们的生产力。
参考文献:
[1] Eka Roivainen, I Gave ChatGPT an IQ Test. Here’s What I Discovered, Scientific American, https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/
[2] Michal Kosinski, Theory of Mind May Have Spontaneously Emerged in Large Language Models, arXiv, https://arxiv.org/abs/2302.02083
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!