摘要
选自arXiv 作者:Sandeep Subramanian等 机器之心编译 参与:Panda 写论文是一件「痛并快乐着」的事情。快乐的是可以将自己的研究公之于众,痛苦的是有大段大段的文本内容需要完成。特别是摘要、引言、结论,需要不断重复说明论文的主要研究、观点和贡献。现在,这样的工作可以依赖 AI 完成了。Element AI 的研究者们提出了一种新的模型,使用 Transformer 架构,自动地生成论文的摘要。AI 攒论文的进程又往前走了一步。 在开始正文前,请读者们先读下面一段摘要: 译文:「我们提出了一种通过神经摘要为超过数千词的长文本生成抽象摘要的方法。我们先在生成摘要之前执行一个简单的抽取步骤,然后再将其用于在相关信息上调整 transformer 语言模型,之后将其用于生成摘要。我们表明这个抽取步骤能显著提升摘要结果。我们还表明这个方法能得到比之前的使用复制机制的方法更抽象的摘要,同时还能得到更高的 rouge 分数。」 读起来怎么样?事实上,以上你看到的摘要内容都不是人类完成的,它是由论文中的机器学习模型写出来的。这是来自 Element AI 的研究者最新公布的研究成果,他们使用了一种类似 GPT 的方法生成了相关研究论文的摘要。 文本摘要是 NLP 中的常见任务了。文档摘要如果能做到很好,可以极大程度减轻文字工作者的工作量,快速提炼文本核心内容,加速文本信息的提取、阅读和生产效率。如果能够将相关算法应用在论文写作上,是不是摘要、引言、相关工作、结论部分都可以省很多功夫了? 但是,正是因为现有的相关算法不够成熟,能够实际应用在生产中的文档摘要算法不多,而且现有的算法普遍只能生成短的、描述事实的文本(在一些新闻平台有所应用)。要将带有逻辑结构的长文本进行抽取和摘要化处理,这样的算法并不常见。 现在,这篇介绍论文摘要抽取生成的论文,也许会给这个 NLP 中的经典任务带来新的解决思路。 论文地址:https://arxiv.org/abs/1909.03186 Transformer 怎样生成论文摘要 语言模型的训练目标是使用某个大型文本语料库来学习估计任意的词或字符序列的联合概率。它们已经在多种不同的语言任务上取得了出色的表现。近期 Radford 等人提出的 GPT-2 表明,如果使用较大的感受野并在大量数据上训练 transformer,那么得到的语言模型能够学习到文本中的长程依赖关系。 如果有人想为长文档生成连贯的、高质量的摘要,那么这样的类 GPT 架构具备很多所需的性质。它们的结果还表明,无条件语言模型可以隐式地学会执行摘要总结或机器翻译,这是其在数据上训练得到的结果。如果将这个数据按序列格式化为文档的不同方面(引言、正文、摘要),那么就可以让模型学习生成其中的一个方面。比如,通过在测试时提供相似格式的数据,可让模型学会解决摘要任务;即语言模型可以基于文档的引言和之后更长的正文生成一个摘要。 具体而言,论文的研究者使用了单个类 GPT...