本科论文
夕小瑶科技说 原创 作者 | 小戏、Python 在 OpenAI GPT-4 发布时发布的《GPT-4 Technical Report》中,其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现,通过让 GPT-4 去完成美国的 AP 课程及考试,来评估 GPT-4 在多个学科中的性能。如下图所示,GPT-4 在大量课程中都取得了令人印象深刻的成绩,并且在一些 GPT-3.5 表现不佳的课程,如化学、宏观经济、物理与统计学中都获得了极大的提升。 但是如果细看上面这张图,可以发现,GPT-4 在 AP 英国文学中表现不尽如人意,对于一个学习了大量语料知识的语言模型,这一点可能会让人感到费解。当然这里存在一个评估问题,对于自由写作的文本而言,OpenAI 并没有公布它们的评估标准,如果缺少这种细化的评估标准,很难直接得到一个 GPT-4 不擅长英国文学题的结论。 由此,立足于教育的领域,来自德国帕绍大学的研究者们组织了一次细致的评估工作,其主题在于“大模型可以写好议论文(Argumentative Essays)吗?”,通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准,聘请了 111 位一线的高中教师对大模型生成的问题进行评分,这篇论文发现,大模型在作者构建的评分标准中,得分普遍高于德国高中生写作的议论文,但是另一方面,人类的写作与 AI 的写作在风格上存在显著的差异,人类倾向于在议论文中更多的表达自己的态度与认知结构,而 AI 则更多的使用高级的、复杂的、更“科学”的语言(名词化的结构)去进行论证。而在风格多样性方面,从GPT-4 到 GPT-3.5 迈出了一大步,GPT-3.5 的语言多样性仍然显著低于人类,但是 GPT-4 的语言丰富度已经开始显著高于人类。 论文题目:AI, write an...