ChatGPT时代的考试：AI能否取代人类律师和管理者？

文章主题：关键词：ChatGPT，法学院，考试，人工智能

666AI工具大全，助力做AI时代先行者！

在探索ChatGPT这一新颖技术时，法学院的学生们可能并未预料到，这个人工智能助手竟然会变成他们一同参加考试的“战友”。

在今年初，来自明尼苏达大学法学院的Jon Choi教授以及宾夕法尼亚大学沃顿商学院的Christian Terwiesch教授，分别利用ChatGPT工具，为他们的课程期末考试制定了独特的解决方案。

结果 ChatGPT 还真都通过了！

这意味着让 ChatGPT 再进化一会儿，以后我们就不需要人类律师和管理者了吗？

还是，这是一声敲响的警钟，提醒教育者们不要再把人类教得像 AI 一样了？

及格的背后：老师「放水」，全班垫底

在已通过的两个专业考试中，ChatGPT 在法学院的成绩略逊于商学院。具体而言，法学院的平均分数为C，而商学院的学生能够在B-到B之间获得更好的成绩。

具体而言，ChatGPT 在沃顿大学成功完成了工商管理学硕士（MBA）的“运营管理”课程中的所有试题。在这门课程中，学生需要对每一个问题进行深入的推演分析。

在测试过程中，Terwiesch教授将考试原型题目输入至ChatGPT系统，然后对其生成的答案进行评分评估。

ChatGPT 在处理基础分析题目时表现得相当出色，然而在数学题目上却显得不够理想。它可能会突然算错一些简单的小学程度的算术问题。而在涉及到较为复杂的问题时，ChatGPT 的表现则相对较差，无法有效地解决这些问题。总体来说，ChatGPT 在回答基础分析题方面表现优秀，但在数学题目的处理上存在一定的不足，同时对于复杂问题的解决能力也有待提高。

在本文的第一个问题中，我们主要考察的是对于“管理瓶颈”这一核心概念的深入理解和掌握。同时，我们也需要对“生产过程”中的各个环节进行细致的比较分析，以找出其中效率最低的一个环节，进而确定我们的“瓶颈”。

这题回答教授直接打了 A 。

然而，当生产过程中涉及到的题目变得越来越复杂，需要处理的各种原料不止一种，而且涉及到的设备类型既有差异又有重叠时，ChatGPT 将不再能够避免出现“管理瓶颈”的问题。

对于这题，ChatGPT 的推演过程虽然是错的，但却「完美绕过」错误推论，撞中了答案。

在算「接收站（receiving station）」效率时，ChatGPT 得出的结果是「300 桶/小时」。

这个数虽然是错的，但以这个数字来说，它的确也是分析过程中算出来效率最低的一环。

谁想到，ChatGPT 却「自己都不信自己」，没把这一环选为「瓶颈」，而是选了算出来效率为「600 桶/小时」的「干燥机（dryer）」环节为「瓶颈」—— 选了个正确答案。

不过，虽然 Terwiesch 教授最后给 ChatGPT 的分数有 B 级，但他也有点「放水」了。

当 ChatGPT 回答出现错误时，Terwiesch 会向 ChatGPT 提供针对性的提醒，然后再让它输出一次回答，并以这个「优化」结果来评分。

至于法学院的考试，ChatGPT 做了宪法、员工福利法、税法和侵权法这四个课程的期末试题。

主导这次测试的 Jon Choi 教授表示，在「盲改」的情况下，ChatGPT 这四科都及格了，但成绩基本都是全班垫底。

虽然 ChatGPT 的简答题比选择题做得更好，但简答题的回答质量却极为不稳定 —— 有时候答得可能比一般学生好（大多是法律条文默写和案例复述），然而一错起来（通常是要求学生用具体理论分析案例的题），分数通常都「错出新低」：

在面对法学院考试的最基本问题时，ChatGPT 都表现糟糕，例如识别潜在法律问题和在案例中深度分析和应用法律条文。

ChatGPT 那「不求理解，只会背书」的答题风格也能低分飘过专业考试，多少显示考题还是太依赖「死记硬背」了，ChatGPT 的表现显然也没法替代律师和管理者。

然而，如果人类学生也大概这种水平，同样通过了考试，甚至毕业后去执业了，那是不是更有问题？

批评多年的「背书就行」考试，ChatGPT 能逼出改变吗？

在 ChatGPT 惊艳登场前，卡内基梅隆大学教授 Danny Oppenheimer 就已提出质疑：在 Google 搜索时代，为什么大学考试还只侧重考学生对事实的重述？

Oppenheimer 指出，虽然有的教育者会反驳说，他们在课堂上讲解事实类信息时，也会分析这些信息的意义、论证和应用，但一到考卷上，立即就变回「背书就行」：

很多课程都是基于一个前提来构建的，那就是学生会通过观察老师以身作则式地去对事实进行分析、拓展和应用，学生自自然然就能发展出这一套技能 —— 这是一个非常值得怀疑的假设。

因此，Oppenheimer 建议课程从设置上就要直接反映出教育者希望学生最终学到的技能，结合新技术也很必要，如「在电脑辅助下做文学赏析」「如何和与你意见不合的人文明地沟通」。

考试可以结合事实性信息，但应侧重于学生的分析和应用能力。

另外，让学生去「预演」未来会遇到的场景也是练习技巧的直接方式，譬如让研究气候改变的学生来为大众策展一场气候相关展览。

现在来到 ChatGPT 时代，这个改变自然是显得更迫切，因为它的效率比搜索引擎更高，同时也更具迷惑性。

ChatGPT 除了给学生省下翻看一页页搜索结果的时间外，还以够用的语言结构能力生成流畅的文段，即便事实准确度非常可疑。

有趣的是，ChatGPT 也像一面镜子。

一方面，它让人想起应试教育中的作文和简答题总像是无休止的「模仿」，标准范式下的填充，就跟 ChatGPT 一样。

另一方面，靠「吃」大数据和由人类真实反馈「调教/校」成长而来，ChatGPT「一本正经瞎扯」的内容也特别像我们生活里会遇到的日常。

以至于沃顿商学院的 Terwiesch 教授都超惊喜，觉得 ChatGPT 能给未来的管理者们带来极佳的学习素材 ——

商业世界里本来就充满了一本正经的一派胡言，就跟 ChatGPT 说的话一样，商学院学生正好能用它来做鉴别练习！

你我都知，需要学下这个技能的远不止商学院学生。

然而，美国高等教育界从搜索引擎流行就开始有改革的讨论，但到了今天仍然进步有限，ChatGPT 的诞生能逼它跑得快些吗？我们也只能继续观察。

人类的，类人的

我总认为，每当人类尝试「再造」一些东西的时候，总会暴露出我们对事物的认知限制，同时也帮助我们去了解自我。

尝试在太空中「再造」食物时，研究人员发现食物真不能只被降至「营养够」。

要保持太空人们身心健康，色香味口感声音无一不影响感知，环境要讲究，一起吃饭的人也非常重要。

当我们拥有一个能「流畅说人话」的 ChatGPT 时，人们也开始发现人类语言不只关于「文字」。

一个只由语言素材训练的系统永远都不会接近人类智能，即便它从现在就开始训练，训练到宇宙毁灭都不行。