文章主题:AI 软件, 科学论文, 摘要, 太长了

666AI工具大全,助力做AI时代先行者!

在撰写一篇文章时,摘要具有举足轻重的地位。它能够精炼地呈现文章的核心内容,使读者在短时间内迅速掌握研究背景、研究价值以及研究亮点。这往往决定着读者是否愿意进一步阅读全文。因此,摘要的撰写至关重要,它能够吸引读者的注意力,引导他们深入探究文章的深层含义。

在撰写文章时,摘要的作用至关重要,它可以迅速吸引读者的注意力并简要概括文章的主要观点。然而,如果摘要过长或逻辑不清晰,可能会导致读者放弃阅读整篇文章的机会。因此,我们应当考虑如何在保持摘要简洁明了的同时,尽可能地精炼文章的核心内容。实际上,我们可以尝试将摘要进一步提炼为一句话,从而更好地突出文章的主题,使读者更容易发现文章的价值所在。

答案是:AI 可以做到。

近期,一款名为TLDR的科学搜索引擎在官方网站上发布了一款人工智能软件。该软件能够自动生成研究论文的简洁总结,其名字来源于“太长了,没有读”的缩写。开发者们希望通过这一功能,帮助研究人员迅速浏览论文,从而缩短阅读摘要所需的时间。

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR在科学搜索引擎“Semantic Scholar”上 (来源:Nature)

TLDR 经常被用于网上关于科学论文的非正式讨论(比如,Twitter 或 Reddit)。

本周,一款软件在非营利性机构艾伦人工智能研究所(AI2)位于华盛顿州西雅图的搜索引擎Semantic Scholar上正式投入使用。此款软件的主要功能是为Semantic Scholar收录的1亿篇计算机科学论文生成简洁明了的一句摘要。

据 AI2 管理的 Semantic Scholar 小组负责人 Dan Weld 透露,他们正在对 TLDR 进行优化,预计在未来一个月左右,TLDR 将开始覆盖其他学科领域的论文。

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR 与普通总结的对比 (来源:Semantic Scholar)

初步测试表明,该工具可以帮助读者比查看标题和摘要的方式更快地整理搜索结果,特别是在手机上。

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR 在手机上的效果(来源:Nature)

介绍该软件的预印本于 4 月 1 日首次发表在 arXiv 预印本服务器上,并在 11 月举行的自然语言处理会议上经过同行评审后被接收发表。研究人员免费提供了他们的代码,以及一个测试 demo(https://scitldr.apps.allenai.org/),任何人都可以尝试使用。

AI助力科研:TLDR生成器助您速读论文摘要

图 | 生成 TLDR 的测试 (来源:SCITDLR)

如何训练 TLDR?

TLDR (Science Paper Summary) 是针对科学论文的一种新颖总结。Weld 开发 TLDR 软件的创意部分源于其同事在 Twitter 上分享的科学论文标注生动句子。与其它语言生成工具相比,该软件同样运用了深度神经网络技术,经过大量训练以产生结果。

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR 的介绍 (来源:arxiv)

为了训练 TLDR,研究人员准备了 SCITLDR,这是一个多目标数据集,包含5411篇TLDR,覆盖计算机科学领域的 3229 篇科学论文。

其中,训练集包含 1992 篇论文,每篇论文都有一个“黄金”TLDR,也就是最佳 TLDR。开发集和测试集分别包含 619 篇和 618 篇论文,分别有 1452 个和 1967 个 TLDR。

通常情况下,总结数据集会假设一个给定文档只有一个黄金总结,而 SCITLDR 与大多数现有的总结数据集不同。正如早期的摘要评估工作所证明的那样,人类撰写的摘要具有可变性。

将每篇论文只考虑一个黄金 TLDR 作为自动评估的基础,可能会导致系统质量评估不准确,因为可能出现在 TLDR 中的内容可能具有很大的可变性。此外,为每份文件提供多个黄金摘要,可以进行更深入的分析和彻底的评估。

为了解决这个问题,SCITLDR 包含了从作者角度撰写的 TLDR(”TLDR-Auth”)和从同行评审者角度撰写的 TLDR(”TLDR-PR”)。

TLDR-Auth 可在各种在线平台上获得。在公开的科学评审平台 http://OpenReview.org 上,作者提交其论文的 TLDR,为审稿人和其他感兴趣的学者总结主要内容。学者们也会在Twitter 和 Reddit 等社交媒体平台上分享 TLDR。

TLDR-PR 是将同行评审员已经仔细检查了源论文后写的评论中的总结重写成 TLDR。为了完成这项任务,研究人员从华盛顿大学招募了 28 名计算机科学专业的本科生,他们有自我报告的阅读科学论文的经验。在接受一个小时的一对一写作训练并筛选后完成 TLDR 的写作工作。

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR-Auth 和 TLDR-PR的对比(来源:arxiv)

AI助力科研:TLDR生成器助您速读论文摘要

图 | TLDR-Auth 和 TLDR-PR的对比(来源:arxiv)

TLDR-Auth 和 TLDR-PR 即使包含相同的信息内容,也会有很大的差异。总的来说,TLDR-PR 总结的更为抽象。

引入 CATTS 对 TLDR 进行优化

CATTS(Controlled Abstraction for TLDRs with Title Scaffolding),这是一种简单而有效的学习生成 TLDR 的方法,它可以在以上介绍的数据集训练的基础上进行补充训练。该方法解决了两个主要挑战:(1) 训练数据的大小是有限的;(2) 为了编写高质量的黄金 TLDR,需要领域知识。

为了解决这些挑战,研究人员提出使用科学论文的标题作为额外的生成目标。由于标题通常包含有关论文的关键信息,假设训练模型生成标题将允许它学习如何定位论文中的突出信息,这些信息对生成 TLDR 也很有用。

通过多任务学习纳入辅助脚手架任务之前已经研究过,用于改进跨度标注和文本分类 。与多任务学习类似,在带有控制代码注释的异质数据上进行训练已经被证明可以改善自回归语言模型中的控制生成。

为了让标题生成完成辅助 TLDR 生成的任务,研究人员提出用标题生成数据集洗牌 SCITLDR,然后分别用控制代码 <|TLDR|> 和 <|TITLE|> 附加每个源。这使得模型的参数可以学习生成 TLDR 和标题。在生成时,适当的控制代码被附加到源中。此外,上采样特定任务可以被视为应用特定任务的权重,类似于多任务学习设置中的权重损失。

AI助力科研:TLDR生成器助您速读论文摘要

图 | CATTS引入可视化(来源:arxiv)

对 TLDR 未来的期待

“我预测,在不久的将来,这种工具将成为学术搜索的标准功能。事实上,考虑到科研人员实际的需求,我很惊讶等了这么长时间才看到它的实际应用。” 西雅图华盛顿大学的信息科学家杰文 – 韦斯特(Jevin West)说,他应《自然》杂志的要求测试了该工具。”虽然它并不完美,但它绝对是朝着正确方向迈出的重要一步。” 他说。

Weld 指出,TLDR 软件并不是唯一的科学总结工具:自 2018 年以来,网站 Paper Digest 也一直提供论文摘要,但它似乎是从文本中提取关键句子,而不是生成新句子。

TLDR 可以从论文的摘要、引言和结论中生成一句话。它的摘要往往是根据文章文本中的关键短语建立起来的,所以它的受众人群是已经了解论文行话的专业的科研人员。对于普通人来说,阅读起来依旧存在一些难度。但 Weld 表示,该团队正在努力为非专家受众提供更为简单易懂的升级版产品。

研究人员还计划将该技术授权给出版商,并将其服务扩展到提供个性化的研究简报,总结某个领域的关键论文。”我们只是到了人工智能可以以人们可以接受的水平生成新颖的摘要的阶段,”Weld 说。

参考资料:

https://www.nature.com/articles/d41586-020-03277-2?utmhttps://www.semanticscholar.org/search?q=computer&sort=relevancehttps://arxiv.org/pdf/2004.15011.pdfhttps://github.com/allenai/scitldr/tree/master/SciTLDR-Datahttps://scitldr.apps.allenai.org/

AI助力科研:TLDR生成器助您速读论文摘要

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!