脑筋急转弯：模型大小与回答准确性之间的关系

文章主题：脑筋急转弯, CRT数据, 语言逻辑陷阱, GPT-4

本文来自微信公众号：夕小瑶科技说（ID：xixiaoyaoQAQ），作者：python，题图来自：《梅根》

一个烙饼煎一面一分钟，两个烙饼煎两面几分钟？

在回答问题时，你是否曾不慎陷入过困境？若让大型语言模型来处理这类脑筋急转弯，结果又会如何呢？一项研究揭示了答案：即使是最庞大的模型，也可能无法避免犯错。这一发现适用于各种对话系统，包括那些经过大量训练的模型。然而，在众多模型中，ChatGPT的表现却相当出色，能够应对这些难题。接下来，让我们深入探讨其中的原因。

论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接: https://arxiv.org/pdf/2306.07622.pdf

脑筋急转弯

作者采用了CRT（Cognitive Reflection Test）数据作为脑筋急转弯的测试数据。该数据在心理学领域，广泛地被用于衡量人类的思维习惯，判断是否习惯于直觉思维。

脑筋急转弯数据示例

如上图所示，作者探索了3种CRT数据和1种语言逻辑陷阱。例如：

在这道数学题目中，我们需要找到未知数，即梨花的价格。已知的信息是苹果和梨的价格差为1元，而苹果的价格比梨贵1元。我们可以利用这些信息来列出一个方程，并解出未知数。首先，我们设梨花的价格为x元，那么苹果的价格就是(x+1)元。根据题目的条件，我们可以得到一个方程：(x+1) – x = 1简化这个方程，我们得到：1 = 1这个方程是恒成立的，因为它等式两边相等。所以，我们可以得出结论，无论梨花的价格是多少，苹果和梨的价格差都为1元。然后，我们再利用另一个条件，即苹果比梨贵1元，可以列出另一个方程：x + 1 = 0.1 * (x+1)解这个方程，我们得到：x = 0.05因此，梨花的价格是0.05元。这就是我们的最终答案。

在进行种植时，一种常见的计算方式是按照“工作量相等”的原则来计算的，也就是说，如果五个人种一棵树木需要花费5分钟，那么十个人种同样的一棵树木所需的时间应该也是5分钟。然而，这个答案并不准确。实际上，十个人种10棵树所需要的时间并不是5分钟，而是5分钟除以5，即每个人种一棵树木所需的时间是1分钟。因此，正确的答案应该是10个人种10棵树需要10分钟。

在微生物学的研究中，培养皿是一个重要的实验工具。本次实验中，我们以CRT-3为研究对象，探讨了培养皿中细菌的扩增规律。实验结果显示，细菌每分钟能够将自身的面积扩大一倍。如果在48分钟内，这些细菌能够充分地填充培养皿，那么我们可以推断，当细菌数量翻倍时，培养皿已经被填满了一半。然而，如果我们要计算出具体的时间，就需要运用一些数学知识。根据细胞扩增的规律，我们知道，当细菌数量翻倍时，所需的时间是一个对数函数。也就是说，时间的增加与细菌数量的增加成正比，但比例不是常数。因此，如果我们已知细菌在48分钟内扩增了一倍，那么，我们可以通过简单的数学运算，得出在培养皿被填满一半时，所需的时间。经过计算，我们得出的结果是47分钟。这个时间比我们的直觉答案24分钟要长，说明我们在计算时考虑了一些我们直觉上不会考虑到因素。这也再次证明，科学研究的结果往往需要严谨的计算和分析。

语言逻辑陷阱：刚上小学的小红去参加高考，她会考几科？直觉答案6科，正确答案：小学生不参加高考。

模型表现

模型表现如下图所示，可以看到模型较小时（从117M GPT-1 到2.7B GPT-Neo），随着模型增大，模型回答正确答案（绿色）和直觉答案（红色）的比例在提高，回答无关答案（黄色）的比例在下降。

但随着模型进一步增大（从2.7B GPT-Neo 到 175B GPT-3），无关答案比例进一步下降，直觉答案比例进一步上升，正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

不同模型表现对比

在上图中，可以看到经过指令调整后的ChatGPT与GPT-4正确答案的比例显著提高。这种现象令人好奇，究竟是什么神秘的力量让ChatGPT的思维产生了如此明显的转变呢？目前尚不可知。

下图具体对比了GPT-3（text davinci-003，左）、ChatGPT（中），GPT-4（右）在几类不同的脑筋急转弯的表现，可以更加凸显上述现象。

不同脑筋急转弯类型上的模型表现对比

在探讨不同的输入形式对结果产生的影响时，我们发现了一些有趣的趋势。首先，我们可以看到问答形式的输入在一定程度上可以提高正确率，然而这种提升幅度并不显著。其次，我们对多选和续写这两种形式进行了尝试，虽然在某些情况下能够增加多样性，但是否真正提高了正确率还需要进一步研究。总的来说，虽然改变输入形式可以在一定程度上改善结果，但这并不意味着这就是提高正确率的唯一途径，我们需要更深入地探索和学习。

下图显示，通过少监督展示学习，GPT-3的正确率会有所上升。但即使展示到40个左右的样本，准确率和无监督的ChatGPT相比仍有差距，更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题（脑筋急转弯），发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法，但无论是改变提问形式还是增加监督数据，GPT-3（text davinci-003）在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢？

本文来自微信公众号：夕小瑶科技说（ID：xixiaoyaoQAQ），作者：python

脑筋急转弯：模型大小与回答准确性之间的关系

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

AIGC ChatGPT 小学生论文

相关文章