训练数据质量低导致模型Output不可靠

文章主题：学术模型, 数据集, 训练, 错误

虽然该模型在技术层面与其他语言模型相差无几，并通过大量学术文献进行训练，但在设定的运用上却存在诸多问题。该模型频繁地生成不实信息、歪曲事实，甚至输出低质量的学术成果。结果导致其在发布仅仅三天之后就被迫下架，这无疑是一次令人捧腹的闹剧。

可以参照跟题目里贴的文章一样来自“量子位”的新闻：

Meta大模型成了“科学造假发动机”，发布3天就在争议中下架117 赞同 · 10 评论文章

“NatureBook”这个数据集被宣传为拥有超过4800万篇的高质量科学论文、教科书和课堂讲稿，甚至超过了地球上所有类似资料的总数。除此之外，它还包含数以百万计的化合物、蛋白质、科学网站和百科全书等元素。然而，这种看似完美的数据集实际上可能隐藏着无数的错误和误导性表达，这可能会导致训练出来的模型在处理西方科技新闻的标题党风格方面表现出色，却无法准确理解和处理其他类型的文本信息。

GAL的数据集在进行“查找论文并进行规范化引用”的过程中，拥有超过3.6亿条的上下文引用以及超过5000万条经过不同来源规范化的独特参考资料。这些数字反映了大量的文献、网络资源以及在线百科全书的引文和参考信息的积累。然而，这些信息中并不乏已经退稿的论文、错误的参考资料甚至编造的文章，但这些并不影响我们从中学习引用的形式。实际上，我们的语言模型所关注的是如何正确引用合适的文章，以及如何判断何种情况下的文章引用是合适的，而非简单地堆积引文和参考信息。

为了管理这些数据，据说 GAL 使用以下设定：

所有数据都以一种通用的标记格式进行处理。预训练中包含用于特定任务的数据集。

这特殊的成果并未达到人们的预期。尽管采用了专业的方式，但实质性的内容却并未得到保证。从实际效果来看，这与历史上没有AI参与的全自动垃圾论文生成器的质量相差无几。甚至在中科院等机构推出的自动抓取、翻译新发表论文的程序中，错误率都相对较低。

尽管人们对这类模型的性能存在一定的误解，但事实已经证明，例如 GPT-3，表明在提供示例并让模型判断某个主题是错误的情况下，该模型可以识别出大量的错误主题（同时也可能误判一些真实的小众主题）。这表明模型在很大程度上已经了解什么样的命题形式是不合逻辑的，只是在未受到明确指示时不主动排除这种不合理的命题。

训练数据质量低导致模型Output不可靠

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章