文章主题:脑筋急转弯, CRT数据, 语言逻辑陷阱, GPT-4
本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python,题图来自:《梅根》
一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?
在回答问题时,你是否曾不慎陷入过困境?若让大型语言模型来处理这类脑筋急转弯,结果又会如何呢?一项研究揭示了答案:即使是最庞大的模型,也可能无法避免犯错。这一发现适用于各种对话系统,包括那些经过大量训练的模型。然而,在众多模型中,ChatGPT的表现却相当出色,能够应对这些难题。接下来,让我们深入探讨其中的原因。
论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4
论文链接: https://arxiv.org/pdf/2306.07622.pdf
脑筋急转弯
作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。
脑筋急转弯数据示例如上图所示,作者探索了3种CRT数据和1种语言逻辑陷阱。例如:
在这道数学题目中,我们需要找到未知数,即梨花的价格。已知的信息是苹果和梨的价格差为1元,而苹果的价格比梨贵1元。我们可以利用这些信息来列出一个方程,并解出未知数。首先,我们设梨花的价格为x元,那么苹果的价格就是(x+1)元。根据题目的条件,我们可以得到一个方程:(x+1) – x = 1简化这个方程,我们得到:1 = 1这个方程是恒成立的,因为它等式两边相等。所以,我们可以得出结论,无论梨花的价格是多少,苹果和梨的价格差都为1元。然后,我们再利用另一个条件,即苹果比梨贵1元,可以列出另一个方程:x + 1 = 0.1 * (x+1)解这个方程,我们得到:x = 0.05因此,梨花的价格是0.05元。这就是我们的最终答案。
在进行种植时,一种常见的计算方式是按照“工作量相等”的原则来计算的,也就是说,如果五个人种一棵树木需要花费5分钟,那么十个人种同样的一棵树木所需的时间应该也是5分钟。然而,这个答案并不准确。实际上,十个人种10棵树所需要的时间并不是5分钟,而是5分钟除以5,即每个人种一棵树木所需的时间是1分钟。因此,正确的答案应该是10个人种10棵树需要10分钟。
在微生物学的研究中,培养皿是一个重要的实验工具。本次实验中,我们以CRT-3为研究对象,探讨了培养皿中细菌的扩增规律。实验结果显示,细菌每分钟能够将自身的面积扩大一倍。如果在48分钟内,这些细菌能够充分地填充培养皿,那么我们可以推断,当细菌数量翻倍时,培养皿已经被填满了一半。然而,如果我们要计算出具体的时间,就需要运用一些数学知识。根据细胞扩增的规律,我们知道,当细菌数量翻倍时,所需的时间是一个对数函数。也就是说,时间的增加与细菌数量的增加成正比,但比例不是常数。因此,如果我们已知细菌在48分钟内扩增了一倍,那么,我们可以通过简单的数学运算,得出在培养皿被填满一半时,所需的时间。经过计算,我们得出的结果是47分钟。这个时间比我们的直觉答案24分钟要长,说明我们在计算时考虑了一些我们直觉上不会考虑到因素。这也再次证明,科学研究的结果往往需要严谨的计算和分析。
语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。
模型表现
模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。
但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。
不同模型表现对比在上图中,可以看到经过指令调整后的ChatGPT与GPT-4正确答案的比例显著提高。这种现象令人好奇,究竟是什么神秘的力量让ChatGPT的思维产生了如此明显的转变呢?目前尚不可知。
下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。
不同脑筋急转弯类型上的模型表现对比在探讨不同的输入形式对结果产生的影响时,我们发现了一些有趣的趋势。首先,我们可以看到问答形式的输入在一定程度上可以提高正确率,然而这种提升幅度并不显著。其次,我们对多选和续写这两种形式进行了尝试,虽然在某些情况下能够增加多样性,但是否真正提高了正确率还需要进一步研究。总的来说,虽然改变输入形式可以在一定程度上改善结果,但这并不意味着这就是提高正确率的唯一途径,我们需要更深入地探索和学习。
下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT相比仍有差距,更不用说GPT-4了。
结论
这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?
本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!