AI多模态模型的崛起:从语言到图像、音频的全方位学习

文章主题：大型语言模型, 文本训练, 多模态模型, AI开发

美国《大西洋月刊》5月19日文章，原题：ChatGPT已经过时了 人工智能正在经历一场无声革命，这项技术不仅超越书面语言，融合多种媒体，更在朝着更崇高的目标努力，即更全面透彻地理解世界。ChatGPT才6个月大，就已经变得有些过时了。

打开凤凰新闻，查看更多高清图片

我们可以将原文分为三个部分来改写：首先，介绍程序及其“亲戚”身份；其次，阐述其工作原理；最后，谈论研究人员如何通过增加文本来提高它们的性能。改写后的文章：这款程序与其“家族成员”一同被称呼为大型语言模型，它们依赖统计学的技巧，预测、构建句子并将其表达出来。为了提升这些程序的预测能力和智能化水平，研究人员一直在努力增加它们的文本输入，这是基于一个观点，即改变程序的配置可以对其性能产生积极影响。这种利用最大化文本的AI开发方法在过去几年中一直保持着主流地位。

然而，初代ChatGPT所代表的纯语言模型正逐渐退出舞台，被能够处理图像、音频以及感官数据的机器所取代。这种转变可能暗示了人类对于智能的理解更加人性化，是对模拟儿童通过观察世界进行学习的初级探索。在此背景下，企业也有机会开发出能力更为全面的AI，并进一步整合到各种产品之中。除GPT-4和Bard外，许多程序也各自开发出了扩展功能，这些功能被称为多模态模型，其中文本和图像均为其中的模态。许多研究人员期望借助这些多模态模型，能够将AI提升至新的高度。

多模态方法在理论上解决了一个关键问题，那就是如何将单词流畅地串联起来，但又能将其与概念、观点、事物或活动建立起联系。为了更好地学习各种类型的数据，AI模型能够更有效地进行现实世界的模拟和交互，从而 outputs 更为贴近真实情况。此外，这种方法还能帮助模型在解决问题时尽可能避免捏造事实的情况发生。随着 AI 研究的关键成果不断涌现，多模态模型的构建变得越来越切实可行。

这种变化的出现有其现实基础。尽管互联网看似庞大无垠，但实际上，AI可用于训练的文本数量是有限的。同时，AI程序的规模、敏感度和可用的计算能力都受到现实条件的制约。相较于ChatGPT，多模态AI在理解和处理世界及语言流畅性方面的提升仍需进一步探讨。目前已有许多程序被证实存在一定的缺陷，但相关研究仍处于初级阶段，预计在未来几年内将持续改进和优化。

要实现AI模拟人类思维的真实效果，仍有许多挑战需要克服。单靠增加输入文本数据并不能完全消除AI模型的偏差和错误，扩展输入数据的种类也未必能有效解决问题。一旦程序吸收了含有偏差的信息，其输出的结果依然可能带来危害，并且这种危害的传播范围可能会更广泛。相较于仅处理语言的模型，多模态AI对于某些特定操作可能更为敏感，比如对图像关键像素的篡改。除了在智能方面具有优势，多模态AI还被视为一个具有潜力的商业机会。

AI多模态模型的崛起:从语言到图像、音频的全方位学习

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章