文章主题:脑筋急转弯, CRT数据, 语言逻辑陷阱, GPT-4

666AI工具大全,助力做AI时代先行者!

本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python,题图来自:《梅根》

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

在回答问题时,你是否曾不慎陷入过困境?若让大型语言模型来处理这类脑筋急转弯,结果又会如何呢?一项研究揭示了答案:即使是最庞大的模型,也可能无法避免犯错。这一发现适用于各种对话系统,包括那些经过大量训练的模型。然而,在众多模型中,ChatGPT的表现却相当出色,能够应对这些难题。接下来,让我们深入探讨其中的原因。

论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接: https://arxiv.org/pdf/2306.07622.pdf

脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据和1种语言逻辑陷阱。例如:

在这道数学题目中,我们需要找到未知数,即梨花的价格。已知的信息是苹果和梨的价格差为1元,而苹果的价格比梨贵1元。我们可以利用这些信息来列出一个方程,并解出未知数。首先,我们设梨花的价格为x元,那么苹果的价格就是(x+1)元。根据题目的条件,我们可以得到一个方程:(x+1) – x = 1简化这个方程,我们得到:1 = 1这个方程是恒成立的,因为它等式两边相等。所以,我们可以得出结论,无论梨花的价格是多少,苹果和梨的价格差都为1元。然后,我们再利用另一个条件,即苹果比梨贵1元,可以列出另一个方程:x + 1 = 0.1 * (x+1)解这个方程,我们得到:x = 0.05因此,梨花的价格是0.05元。这就是我们的最终答案。

在进行种植时,一种常见的计算方式是按照“工作量相等”的原则来计算的,也就是说,如果五个人种一棵树木需要花费5分钟,那么十个人种同样的一棵树木所需的时间应该也是5分钟。然而,这个答案并不准确。实际上,十个人种10棵树所需要的时间并不是5分钟,而是5分钟除以5,即每个人种一棵树木所需的时间是1分钟。因此,正确的答案应该是10个人种10棵树需要10分钟。

在微生物学的研究中,培养皿是一个重要的实验工具。本次实验中,我们以CRT-3为研究对象,探讨了培养皿中细菌的扩增规律。实验结果显示,细菌每分钟能够将自身的面积扩大一倍。如果在48分钟内,这些细菌能够充分地填充培养皿,那么我们可以推断,当细菌数量翻倍时,培养皿已经被填满了一半。然而,如果我们要计算出具体的时间,就需要运用一些数学知识。根据细胞扩增的规律,我们知道,当细菌数量翻倍时,所需的时间是一个对数函数。也就是说,时间的增加与细菌数量的增加成正比,但比例不是常数。因此,如果我们已知细菌在48分钟内扩增了一倍,那么,我们可以通过简单的数学运算,得出在培养皿被填满一半时,所需的时间。经过计算,我们得出的结果是47分钟。这个时间比我们的直觉答案24分钟要长,说明我们在计算时考虑了一些我们直觉上不会考虑到因素。这也再次证明,科学研究的结果往往需要严谨的计算和分析。

语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。

模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。

但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

不同模型表现对比

在上图中,可以看到经过指令调整后的ChatGPT与GPT-4正确答案的比例显著提高。这种现象令人好奇,究竟是什么神秘的力量让ChatGPT的思维产生了如此明显的转变呢?目前尚不可知。

下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

不同脑筋急转弯类型上的模型表现对比

在探讨不同的输入形式对结果产生的影响时,我们发现了一些有趣的趋势。首先,我们可以看到问答形式的输入在一定程度上可以提高正确率,然而这种提升幅度并不显著。其次,我们对多选和续写这两种形式进行了尝试,虽然在某些情况下能够增加多样性,但是否真正提高了正确率还需要进一步研究。总的来说,虽然改变输入形式可以在一定程度上改善结果,但这并不意味着这就是提高正确率的唯一途径,我们需要更深入地探索和学习。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT相比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python

脑筋急转弯:模型大小与回答准确性之间的关系

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!