本科论文 深度解读大型语言模型的涌现能力:NLP领域的颠覆与机遇 这篇文章是由符尧撰写的,他目前就读于爱丁堡大学。他与Tushar Khot和彭昊共同完成了英文原稿,并与李如硕士学位合作翻译成中文。文章讨论了大型语言模型展示的强大能力,尤其是那些可能只存在于大型模型中而不存在于较小模型中的能力,被称为“突现”能力。文章重点关注了NLP社区近年来一直关注但没有实现的能力,以及先前的NLP模型很难达到的能力。文章提出了几种典型能力,并通过实例进行了详细讨论。
本科论文 中国OpenAI:西湖心辰如何两年create大模型 这篇文章主要介绍了西湖心辰这家成立不到两年的小公司如何打造中国的OpenAI。心辰具有三大优势:1.在大模型的研究和商业化落地要早一年,积累了超过百万的用户,并训练出了匹敌GPT3.5的模型RIO。2.创始人蓝振忠曾在Google主导研发了大模型ALBERT,并在大模型领域颇具影响力。3.初步组建了一支高人才密度的团队,并背靠中国新型研究型大学西湖大学,拥有丰厚的人才储备和强大的算力资源。此外,心辰还具备产品设计创新、研发团队的创新独立性和沿途下蛋的商业思维等基本要素。总体来说,这篇文章认为西湖心辰有望成为中国的OpenAI。
本科论文 ChatGPT/GPT-3.5:揭开大型语言模型的神秘面纱 这篇文章主要介绍了OpenAI的预训练模型ChatGPT及其强大能力,并探讨了其背后的 transparent large model 方案,旨在推动大型语言模型的开源发展,提高治学理念和技术水准。ChatGPT通过大规模预训练和多种技术手段,实现了其在多个领域的强大表现,如语言理解、生成和推理等。
本科论文 大型语言模型中的突现能力:研究范式转变与潜在应用 这篇文章由符尧撰写,讨论了大型语言模型所展示的突现能力。作者与Tushar Khot和彭昊在艾伦人工智能研究院共同完成英文原稿,并与中国美团的NLP中心合作将其翻译成中文。文章指出,大型语言模型的突现能力可能只存在于大型模型中,而不存在较小的模型中,因此称为“突现”。其中许多能力都非常令人印象深刻,比如复杂推理、知识推理和分布外鲁棒性。文章提到,这些能力很接近NLP社区几十年来一直寻求的能力,因此代表了一种潜在的研究范式转变,即从微调小模型到使用大模型进行上下文学习。作者通过一个GSM8K数据集中的例子说明了模型的表现随着模型大小改变而产生明显的变化。文章最后讨论了几种可能具有代表性的突现能力,包括复杂推理、知识推理和分布外鲁棒性。