文章主题:论文, 摘要, 生成, 神经网络

666AI工具大全,助力做AI时代先行者!

编者按

撰写学术论文是一项既繁琐又复杂的任务,它要求我们完成许多大量的文本内容,其中包括摘要、引言和结论等部分,这些部分都需要不断地重复论述论文的主要工作和贡献。然而,当前的研究者们正在开发一种新颖的模型,该模型采用了类似于GPT的方法,能够自动生成相关研究的论文摘要。这无疑将推动人工智能在撰写论文领域的应用进程,使我们的研究工作更上一层楼。

文章作者:Sandeep Subramanian等

责任编辑:夏洛克

文章发表于微信公众号【运筹OR帷幄】:AI | AI攒论文指日可待?Transformer生成论文摘要方法已出欢迎原链接转发,转载请私信@运筹OR帷幄

获取信息,盗版必究。

敬请关注和扩散本专栏及同名公众号,会邀请全球知名学者发布运筹学、人工智能中优化理论等相关干货、知乎Live

及行业动态

更多精彩文章,欢迎访问我们的机构号:@运筹OR帷幄

本文转载自公众号 机器之心(ID:almosthuman)

原文链接:AI攒论文指日可待?Transformer生成论文摘要方法已出

AI生成的文献摘要:革命性的文本摘要生成技术

在开始正文前,请读者们先读下面一段摘要:

AI生成的文献摘要:革命性的文本摘要生成技术

我们提出了一种创新性的方法,能够利用神经摘要技术为超过上千词的长文本生成抽象摘要。此方法包含两个主要步骤:首先,在进行摘要生成之前,我们会先执行一个简化的抽取过程;其次,将提取出的关键信息应用于调整 transformer 语言模型,从而实现摘要生成。实验证明,这一抽取步骤能显著提高摘要的质量。此外,我们的方法不仅生成了比先前使用复制机制方法更为抽象的摘要,而且还能获得更高的 ROUGE 分数。

阅读体验如何?实际上,你所看到的所有摘要内容并非出自人类之手,而是由论文中的机器学习模型所创作。这是Element AI研究人员最近公开的一项研究成果,他们采用了一种类似于GPT的方法来生成相关研究的摘要。

在自然语言处理(NLP)领域中,文本摘要是一项常见的任务。如果能够出色地完成这一任务,那么它将为文字工作者带来巨大的便利,能够迅速而准确地提炼文本的核心内容,从而提高文本信息的提取、阅读和生产效率。事实上,如果将相关的算法应用到论文写作中,那么摘要、引言、相关工作以及结论等部分都有可能得到简化。这是因为这些算法可以帮助我们更好地理解和分析文本,从而使得文本摘要的生成更为高效和精准。因此,将算法应用于文本摘要任务,无疑会极大地提升我们的工作效率,并推动NLP技术的发展。

现有的一些文本摘要算法尚不够成熟,能够在实际生产中得到广泛应用的更是少之又少。这主要是因为这些算法在面对长文本时,往往无法进行有效的抽取和摘要。尤其是在处理包含逻辑结构的长文本时,这种算法的匮乏更为明显。因此,开发一种能够对长文本进行有效抽取和摘要化的算法,对于提高文本摘要技术的实用性和广泛应用具有重要意义。

现在,这篇介绍论文摘要抽取生成的论文,也许会给这个 NLP 中的经典任务带来新的解决思路。

论文地址:https://arxiv.org/abs/1909.03186

Transformer 是一种用于生成论文摘要的语言模型,其训练目标在于利用大型文本语料库来学习估计任意词或字符序列的联合概率。这种方法在各种语言任务上都展现出了优秀的性能。近期,Radford 等人的 GPT-2 进一步证明了,当使用较大的感受野并在大量数据上训练 Transformer 时,得到的语言模型能够学习到文本中的长程依赖关系。因此,对于那些希望为长文档生成连贯、高质量摘要的人来说,这种类 GPT 架构具有许多必要的属性。研究者在论文中使用了一个单类的 GPT Transformer 语言模型,对其进行了在文档及其摘要上的训练。在推理阶段,该语言模型会根据输入文档执行生成任务,这一过程被划分为两个步骤:抽取和摘要。由于文档可能包含超过几千词的部分,研究者采用了两个不同的分层式文档模型来处理这种情况。其中一个模型是基于指针网络(pointer network)的变体,类似于 Chen 和 Bansal 在 2018 年提出的方法。另一个模型则是基于句子分类器。在这个抽取步骤中,模型能够抽取出文档中的重要句子,并利用这些句子在相关信息上调节 Transformer 语言模型,从而使其能够执行摘要生成任务。

他们的整体模型结构包含两个可以独立训练的组成部分。第一个部分是分层文档表征模型,其主要功能是对文档中的句子进行指向或分类,以便提取式地获取摘要信息。第二个部分是transformer语言模型,它能够根据抽取出来的句子以及文档的部分或全部内容来生成摘要。这两个组成部分各司其职,共同为模型的整体性能提供了有力的支持。

AI生成的文献摘要:革命性的文本摘要生成技术

图 1:用提出的模型来为科研论文生成摘要抽取模型这是一种分层式文档表征模型,它可以指向或分类文档中的句子,从而得到一个抽取式的摘要。1. 分层式序列到序列句子指针这个抽取模型类似于 Chen and Bansal 在 2018 年开发的句子指针架构,主要的差异是编码器的选择。这里的模型使用的是分层式双向 LSTM 编码器,且使用了词级和句子级的 LSTM;而 Chen and Bansal 使用的是卷积式词级编码器,可以实现更快的训练和推理。但这两者使用的解码器是一样的,都是 LSTM。因此,这个抽取器采用了编码器-解码器架构。其中编码器采用了分层结构,结合了 token 级与句子级的 RNN。首先,这个「句子编码器」或 token 级 RNN 是一个双向 LSTM,用于编码每个句子。两个方向的最后一层的最后隐藏状态产生句子嵌入。句子级 LSTM 或「文档编码器」则是另一个双向 LSTM,可将这个句子嵌入的序列编码成文档表征。解码器则是一个自回归 LSTM,它的输入是之前抽取出的句子的句子级 LSTM 隐藏状态。基于这个输入,它可以预测下一个要抽取的句子。这个解码器的输出是根据该解码器在文档表征上的隐藏状态,使用一种注意机制计算出来的。这里使用了来自 (Luong, Pham, and Manning 2015) 的点积注意方法。根据 (Luong, Pham, and Manning 2015) 的输入馈送方法,这种注意感知型隐藏状态会在下一个时间步骤连接到输入。将注意权重用作在文档句子上的输出概率分布,并据此选择下一个要抽取的句子。这里研究者采用了一种惯例来指示抽取结束,即相同的索引连续出现两次。这个模型的训练目标是最小化每个解码器时间步骤选取正确的句子的交叉熵。2. 句子分类器类似于指针网络,研究者使用了一个分层式 LSTM 来编码文档以及得到句子表征的序列。这个模型的训练目标是最小化与黄金标准抽取摘要的句子的二元交叉熵损失。3. 模型细节这个模型使用了大小为 300 的词嵌入。token 级 LSTM(句子编码器)、句子级 LSTM(文档编码器)和解码器各自都有 2 个包含 512 个单元的层,并且在每个中间层的输出处都应用了 0.5 的 dropout。训练使用了 Adam,学习率为 0.001,权重衰减为 10^-5,批大小为 32。研究者每 200 次更新对模型进行一次评估,patience 值为 50。在推理阶段,使用波束搜索进行解码,指针模型的波束大小为 4,并从句子分类器选取 k 个最有可能的句子,其中 k 是训练数据集中摘要的平均句数。

在本文中,我们主要讨论了Transformer语言模型(TLM)的构建及训练过程。TLM仅采用了一种从零开始的训练方式,同时训练数据也经过适当的格式化处理。这种模型拥有2.2亿个参数,网络结构包括20层,768维度的嵌入层,3072维度的位置多层感知机以及12个注意力头。这和Vaswani等人于2017年提出的Transformer语言模型并无二致,唯一的区别在于这里并未在初始阶段对权重进行扩展。该语言模型的训练在英伟达DGX-2的16个V100 GPU上进行了5天的运算。在训练初期,研究者采用线性上升的学习率策略,最高学习率为2.5×e^(-4)。随后,通过Adam优化器按照余弦退火计划将学习率降低至0。训练过程中采用了混合精度训练,每批次包含256个序列,每个序列的token数量为1024。然而,当需要处理过长的文档时,单独的token窗口可能无法容纳所有的信息。因此,研究者采取了引入引言作为代理的方法,利用其包含的信息生成摘要或总结。而对于论文的其他部分,则采取类似于领域语言模型的训练数据进行训练。为了实现科研论文的摘要提取,研究者将arXiv和PubMed的数据集组织成了四个部分:引言、句子指针模型抽取的句子、摘要以及论文其余内容。在处理数据集时,如果论文引言包含了足够的信息,那么它将被视为整个文档。而在其他数据集上,论文引言可能会占据整个文档。为了指示模型开始生成摘要,研究者使用了一个特殊的token来标记摘要的开始。此外,在测试时间,研究者还将该token用于引导模型完成摘要的生成任务。除引言外的文章其他部分也将提供给语言模型,用作额外的域内训练数据。整个数据集被分割成互不重叠的样本,每个样本的token数量为1024。在推理过程中,研究者采用了“前k个(topk)”的采样方法,其中k=30,softmax温度设置为0.7。

结果与分析

数据集研究者实验了四个不同的大规模长文本摘要数据集:arXiv、PubMed(Cohan et al. 2018)、 bigPatent(Sharma, Li, and Wang 2019)、Newsroom(Grusky, Naaman, and Artzi 2018)。表 1 给出了这些数据集的统计情况。

AI生成的文献摘要:革命性的文本摘要生成技术

表 1:本研究中所使用的数据集的统计情况。各列依次为:数据集名称、文档-摘要对数量、文档词数与摘要词数的比、摘要的词数、文档的词数数据预处理抽取模型与摘要模型使用的子词单元都是通过字节对编码(byte pair encoding)(Sennrich, Haddow, and Birch 2015)计算得到的,使用了 40 000 个 replacement。为了解决句子指针网络的内存问题,每篇文章仅保留 300 个句子,每个句子保留 35 个 token。评估研究者使用的评估指标是全长度 F-1 ROUGE 分数(Lin 2004),为此研究中复用了(Co- han et al. 2018)的代码。本研究报告的所有 ROUGE 数值都有 95% 的置信区间,偏差最多为 0.24。结果

AI生成的文献摘要:革命性的文本摘要生成技术

表 2:在 arXiv 数据集上的摘要结果。之前的研究结果(Previous Work)来自(Cohan et al. 2018)。下面几行是简单的基线前 10 名抽取器以及指针和分类器模型。新提出的 transformer 语言模型要么只基于引言(I),要么还有抽取的句子(E),这些抽取的句子来自基本真值(G)或模型(M)抽取。

AI生成的文献摘要:革命性的文本摘要生成技术

表 3:定性结果——NewsRoom 数据集的新闻文章以及新提出的模型生成的摘要

更多精彩文章欢迎关注我们的机构号@运筹OR帷幄

扫二维码关注『运筹OR帷幄』公众号:

AI生成的文献摘要:革命性的文本摘要生成技术

AI生成的文献摘要:革命性的文本摘要生成技术

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!