文章主题:文章内容:; 1. 科技 2. 创新 3. 未来
夕小瑶科技说 原创
作者 | Python之前,复旦大学的研究者让ChatGPT参加了中国高考,发现成绩惨不忍睹(参见推送),其中理科数学竟只有20多分。这次,小米AI lab的研究者们给模型降低一下难度,找了1700道中国小学数学题,测试了10个大语言模型。实验表明,ChatGPT只能通过小学4年级水平,而GPT-4可以小学毕业。同时,国产大模型如Baichuan、MOSS、ChatGLM2等表现较差。让我们来看看吧。
论文题目
:
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?论文链接
:
https://arxiv.org/pdf/2306.16636.pdf数据集
本实验使用的小学数学题数据集CMATH获取自开源的小学练习册和考卷。如下图所示,每道题标注了年级(Grade),推理步数(#Steps)与最大有效数字位数(#Digits)来标示难度。
▲数据集的统计信息
实验结果
实验设置上,作者只采用了零监督设置,没有使用CoT等技巧。作者表示这样才能最原生态地评价大模型。但这样可能也会让模型表现偏低。
各个年级的题目上,实验结果如下图所示。可以看到,GPT-4可以在所有年级的题目中拿到60分以上的成绩,而ChatGPT只能达到4年级及格的水平。国产大模型中,只有ChatGLM2与Ziya-LLaMA-13B能达到2年级及格的水平,其它模型在一年级的问题中也都难以得到50分以上的成绩。
不过,即使GPT-4成绩相对最好,大家回想一下自己小学时的成绩,可能还是要比GPT-4强不少的。
接下来观看不同模型对需要不同推理步骤的问题,与不同计算位数的问题的表现,也可以看出,当推理步数较多或数字位数较大时,国产大模型表现下滑明显。
▲不同推理步骤模型表现
▲不同数据位数模型表现
作者还尝试在问题中增加干扰条件(Distractors)来检测大模型的鲁棒性。
▲增加干扰条件的问题样例
实验结果表明,GPT-4具有较强的抗干扰能力,而其他大模型在抗干扰上表现不佳。
▲增加干扰条件的实验结果
总结
该文用中国小学数学题测试了GPT-4、ChatGPT与国产大模型。实验结果表明,GPT-4可以较好地解答中文小学数学题,但和人类相比还有差距;即使是面对中文试题,国产大模型与OpenAI的产品之间还有很大距离,我们还需要进一步加强国产大模型的研究。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!