大型语言模型中的突现能力:研究范式转变与潜在应用
这篇文章由符尧撰写,讨论了大型语言模型所展示的突现能力。作者与Tushar Khot和彭昊在艾伦人工智能研究院共同完成英文原稿,并与中国美团的NLP中心合作将其翻译成中文。文章指出,大型语言模型的突现能力可能只存在于大型模型中,而不存在较小的模型中,因此称为“突现”。其中许多能力都非常令人印象深刻,比如复杂推理、知识推理和分布外鲁棒性。文章提到,这些能力很接近NLP社区几十年来一直寻求的能力,因此代表了一种潜在的研究范式转变,即从微调小模型到使用大模型进行上下文学习。作者通过一个GSM8K数据集中的例子说明了模型的表现随着模型大小改变而产生明显的变化。文章最后讨论了几种可能具有代表性的突现能力,包括复杂推理、知识推理和分布外鲁棒性。



