ChatGPT应用层强化训练：提高对话质量

文章主题：ChatGPT, 应用层, 强化训练, 对话质量

“最近开始玩ChatGPT，的确很惊人。”一位生物学领域的科学家近日在社交媒体上感慨。在他展示的向ChatGPT发起的挑战中，提出的问题包括如何运营公司、如何管理孩子、为何生育率下降，再到中国的文化和政策问题，ChatGPT大多能应对流畅。

这款当今最火爆的AI语言模型，由美国人工智能实验室OpenAI于去年11月底发布，并迅速火遍全球。人们长期苦于那些智能语音助手的傻瓜回答，这次ChatGPT却出乎意料的聪明：它可以用来创作故事、撰写新闻、回答客观问题、聊天、写代码和查找代码问题等。外媒评论称，ChatGPT会成为科技行业的下一个颠覆者。

ChatGPT是自然语言处理（NLP）中一项引人瞩目的进展，它阅览了互联网上几乎所有数据，并在超级复杂的模型之下进行深度学习。因为语言是人类智慧、思维方式的核心体现，因此，自然语言处理被称作“AI皇冠上的明珠”。而ChatGPT的出色表现，被认为可能是迈向通用型AI的一种可行路径——作为一种底层模型，它再次验证了深度学习中“规模”的意义。

1月12日，在美国一场活动上，曾担任微软董事长的比尔·盖茨表示，他不认为Web3有那么重要，也不认为元宇宙本身是革命性的，但是人工智能却是颇具颠覆性的。当被问及如何看待ChatGPT时，他说，“这让我能一窥未来。整个平台的方法和创新速度都令我印象深刻。”

最新发布的ChatGPT，在应用层进行了强化训练，提高了对话质量。图/视觉中国

文本生成和对话领域，基本要被“洗一遍”

GPT英文全称为Generative Pre-trained Transformer（生成式预训练转换器），是一种基于互联网可用数据训练的文本生成深度学习模型。ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3，后者是目前训练参数量最大的AI模型，当时发布后便引发了广泛的关注。

此次发布的ChatGPT实际上是GPT-3.5。在3.0的基础上，ChatGPT在应用层进行了强化训练，提高了对话质量。

王帅是AI领域从业20多年的一位工程师，目前在英伟达工作。他对《中国新闻周刊》介绍说，首先，OpenAI引入了人类监督员，对AI的回答进行打分，使得它在众多可能的回答中选择那些更加符合人类预期的答案；其次，新版本还引入了多轮对话，尤其是在涉及一些有关步骤的问答当中，让这个模型的语言前后逻辑更加明晰、有因果关联。

创新工场人工智能工程院执行院长王咏刚告诉《中国新闻周刊》，人类处理数学公式时，如果有几十个参数，就已非常之复杂了。然而，GPT-3却相当于是一个包含1750亿个参数的公式，来处理所有互联网上的数据，以理解人类当今的文本和语言。因此，他评价，OpenAI的超大规模预训练模型是深度学习诞生以来，AI在行为表现上最接近人类智慧的一个时期。OpenAI还在不断提升AI训练的规模和复杂度。

硅谷科技公司PerceptIn创始人刘少山在接受《中国新闻周刊》采访时表示，过去，AI已经能在一些特定任务上做得很出色，比如，在图像识别、语音理解方面，计算机正逐渐取代人的眼睛和耳朵行使的功能，但一直无法实现通用。所谓通用人工智能，即与实现特定任务的AI相对应。

2020年，在一场业内会议上，美国康奈尔大学计算机教授巴特·塞尔曼谈到，通用人工智能可能还需要20年以上才可以实现，“不过如果我们在未来五到十年能在真正的自然语言理解上获得突破，使得AI可以去阅读图书、从互联网获得知识，那么这个进程可能会被大大加速”。

ChatGPT有更好的语言理解能力，意味着它可以更像一个通用的任务助理，能够和不同行业结合，衍生出很多应用的场景。刘少山认为，它可以说是打开了通用人工智能的一扇大门。

王咏刚指出，可以说，互联网的每一个环节，只要涉及文本生成和对话的，未来基本上要被ChatGPT“洗一遍”。也就是说，都需要结合这一语言工具，才能得到一个接近于自然人类语言对话的效果。

以自动驾驶为例，刘少山说，目前的自动驾驶还比较“傻”，因为汽车的智能系统与人的交互是比较机械的，比如说，前面有一辆车，按照规则，它有可能会无法正确判断什么时候该绕行。而ChatGPT等人工智能的迭代，未来可能会让机器更接近人的思维模式，学习人的驾驶行为，带领自动驾驶进入“2.0时代”。

近来，据美国硅谷的科技媒体报道，微软已经讨论在Word、PowerPoint、Outlook和其他应用程序中加入ChatGPT。1月17日举行的达沃斯世界经济论坛《华尔街日报》座谈会上，微软CEO萨提亚·纳德拉表示，微软将迅速采取行动，力争让OpenAI的工具快速商业化。

人类世界有许多重复性的、程式化的语言文字工作，不需要复杂的逻辑思考或决策判断。ChatGPT帮助人们更流畅、更快速地书写这些段落的潜力，可能会成为微软这些应用程序的“杀手锏”。比如，在人们需要请假时，只要打出“写一封请病假的邮件”几个字，Outlook就能把措辞正式的请假申请写好。

在“ChatGPT+”的世界，搜索引擎领域的变化，尤为引发关注。目前的搜索引擎基于关键字响应，根据搜索结果进一步筛选信息然后整合。一些人相信，基于对话的搜索，可能会彻底改造甚至取代当前的信息检索方式。有美国科技媒体1月初的报道指出，微软正在考虑将ChatGPT整合到其搜索引擎“必应”当中。

20多年来，谷歌搜索引擎一直是全球互联网的主要门户网站之一。随着ChatGPT等产品的出现，《纽约时报》在2022年12月21日的文章中指出，谷歌的主要搜索业务可能首次面临严重威胁。谷歌的管理层已发布表示情况紧急的“红色代码”，着手应对。一些人担心，一场可能颠覆整个AI行业的巨大技术变革正在到来。

谷歌率先提出关于深度学习模型最核心的算法，但是应用上却是OpenAI这样的机构推得更快。对谷歌较为熟悉的王咏刚指出，一个很重要的原因是，像谷歌这样的大公司，作为互联网的信息提供商，其实对于新技术的商业化使用是很谨慎的。比如，如果ChatGPT在知识性的回答上有95％的正确率，那5％的错误率能够接受吗？

在2021年5月的谷歌网络开发者年会上，谷歌就展示了其最新的人工智能系统LaMDA。谷歌表示，LaMDA可以使回答更加“合情合理”，让对话更自然地进行，而且这些回复都不是预先设定的。但目前，谷歌仍不愿向公众发布LaMDA。谷歌表示，部分原因在于，LaMDA存在较高的误差，且容易对用户造成伤害。

“现在还很难判断。”在英伟达工作的王帅说，如果ChatGPT能够取代当前的搜索引擎，谷歌也不会坐以待毙，因为在大规模语言模型上，它与微软之间并不存在技术上有与没有的区别；其次，技术只是一方面的原因，这背后还有运营成本、效率、商业模式等方面的考虑。

事实上，《纽约时报》也指出，谷歌可能不愿意部署这项新技术来替代在线搜索，因为它不适合投放数字广告——如果ChatGPT能够完美响应搜索，人们就没有动机点击额外的链接，而广告在2021年为谷歌挣了2080亿美元，占谷歌母公司Alphabet总收入的81％。

更先进的GPT-4出来以后，可能会带来更为惊艳的成果。几个月前，王咏刚与OpenAI的两位联合创始人见了个面，谈论了GPT-4的一些技术问题。尽管尚没有准确的数据，但他分析说，GPT-3模型参数量级是1750亿规模的，而GPT-4的参数可能将比它高出几个量级。他表示，那是令人叹为观止的训练量，“想象一下，如果说GPT-3相当于昆虫大小的脑容量，那么 GPT-4可能会达到哺乳动物的脑容量”。

不过，ChatGPT还远不完美。因为这类人工智能对话机器人是通过消化互联网上公开的大量数据来成长的，所以，它们的知识结构中同时有事实和虚构的部分，传递的信息可能也会存在偏见、甚至仇恨言论等。前述生物学家表示，ChatGPT“不禁逗”，一些问题回答错误或者无法解答。

《麻省理工科技评论》在去年11月末尖锐地指出，所有的大规模语言模型都在输出“nonsense（愚蠢的话）”，ChatGPT看起来解决了一些问题，但远不是一个彻底的终结。OpenAI的科学家约翰·舒尔曼也承认，还有很多事情要做，“我们在这个问题上取得了一些进展，但还远未解决”。

“从水下100米到马里亚纳海沟”

长期以来，在AI领域，存在着一场旷日持久的争论：基于深度学习和超强算力的大模型训练，是否是抵达通用人工智能的最终道路？在这方面，OpenAI无疑是一个坚定的押注者。

2018年6月，OpenAI发表论文《通过生成式预训练加强语言理解》，首次介绍了自己的语言模型GPT-1。它在深度学习模型Transformer架构上，使用了内含几十亿个文本文档的超大规模语言资料库进行训练，参数量为1.17亿。2019年2月，升级版GPT-2发布，模型参数达到15亿，且训练模型的数据库也更大；2020年，规模大百倍的GPT-3诞生。

创新工场人工智能工程院执行院长王咏刚打了个比方，如果说传统的机器学习或人工智能是在水下一米的深处探索，那么深度学习的出现将人们带到了一百米的深水区；而在Transformer、GPT等架构后，从业者们直接能抵达深度超过万米的马里亚纳海沟。

过去5年中，大规模预训练语言模型受到业内越来越多的重视。王帅指出，过去依靠人工标注和精巧设计的训练方法，数据量大幅增加以后，表现并不好；相反，大家逐渐意识到，不断扩大模型规模、不断用更多数据去训练模型，是提高算法能力非常有效的一个手段。

“目前看起来，这种模型太有用了。而且从ChatGPT的结果来看，超出了我们的预料。”王帅说，可以认为这种不断增加规模的大模型已经是领域的一种范式，可能人工智能领域未来有很多地方都可以用类似方法推进。

“今天，全世界的人工智能研究有很多方向，也产生了大量的成果。但是严格来说，所有这些最令人惊艳的结果， 90％以上是基于Transformer迭代来的这些大模型技术得到的。”王咏刚也指出，目前几乎所有的AI任务和项目，都会和大语言模型技术有关联，它已经代表了AI界最主流的科研和技术迭代方向。

2022年7月，Alphabet旗下的DeepMind公司与欧洲生物信息研究所的团队合作公布了生物学领域的一项重大飞跃。他们利用人工智能系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构，几乎涵盖了地球上所有已知蛋白质。许多研究人员表示，这一系列突破将加速新药开发，并为基础科学带来全新革命。而Alphafold同样是基于Transformer结构的深度学习模型。

OpenAI是一家非营利性的研究机构，于2015年成立，由特斯拉创始人马斯克、创业孵化器Y Combinator总裁山姆·奥特曼、PayPal联合创始人彼得·蒂尔等硅谷大亨们创建，其愿景是实现安全的通用人工智能，并向公众开放。

多位受访业内人士指出，大规模语言模型并不是OpenAI的“独门技术”；再加上人才和资金的雄厚，谷歌、微软、百度等AI领域的巨头公司并不是无法复制下一个ChatGPT。实际上，ChatGPT诞生之前，硅谷巨头们都意识到了大语言模型的重要性，比如，DeepMind也发布了人工智能聊天机器人Sparrow，Facebook母公司Meta也有自己的同类产品。

然而，不同的是，这些年来，OpenAI一直将资源集中在这个方向上。在微软等巨头公司的资金和技术支持下，它不断将这种方法论推向极致。“规模至上的这种理念和方法论是OpenAI特别推崇的，相对来说，其他公司或者团队没有他们这么坚信。”王咏刚说。

不过，王咏刚说，在ChatGPT出圈之后，从业者们的心态是比较微妙的。一方面，业界可能会越来越重视这条路径，投入更多资源；另一方面，大家又希望它不是AI领域唯一核心的方法，还能够有空间探索更多的可能性。

“仅仅靠数据驱动的路径，虽然能让AI在一些领域达到接近或者超过人类的水平，例如人脸识别，但在另一些领域，比如自动驾驶，我们需要的是接近100％的安全性。”康奈尔大学计算机教授巴特·塞尔曼就认为，这最后的10％、5％的提升，可能不是深度学习本身能够解决的，需要不同的思路。

对AI的理解落后于其发展速度

2022年9月，一位年轻人用Al绘画工具Midjourney生成的作品《太空歌剧院》，在美国科罗拉多州博览会的美术比赛中获得大奖，获奖类别是“数字艺术/数字修饰照片”组第一名。不过，这引发了一场人文争议和反AI绘画的浪潮。

有网友表示，我们眼睁睁地见证了艺术的死亡，“如果连艺术工作都无法避免被机器所吞没，那么高技能的工种也将面临被淘汰的危机。到时候，我们又能剩下什么呢？”

刘少山谈到，AI科学家们最初的猜想是，AI大发展后，一些蓝领岗位、重复性的工作会首先被取代。然而，ChatGPT、AlphaFold等工具出来后，人们发现，最先感受到AI冲击的，反而是创造性的工作，而送餐这一类涉及劳动力的工作却没能被取代。他解释说，在机器人、自动驾驶等领域，机械与智能是两个基本的模块。现实进展来看，机械部分有很多物理上的限制，很多技术目前尚未突破；得益于深度学习等模型的发展，智能部分反而突破更快。

这些涉及创造力、知识探索、信息获取的行业，是人文领域的核心，是人类最担心被机器化的部分。一直以来，AI在这些领域的重大突破都伴随着广泛的伦理争议。

世界知名的复杂性科学研究中心、美国圣塔菲研究所教授梅勒妮·米切尔近日在接受媒体采访时就谈到，过于盲目采用这些技术，将我们的交流和创意自动化，可能会导致人类失去对机器的控制，“机器人会给机器人写电子邮件，而机器人会回复其他机器人”。米切尔说，“我们作为人的特质从我们的信息中被卷走了。”

1月5日，纽约市教育部门表示，纽约公立学校的所有设备和网络上将禁止使用ChatGPT。纽约市教育部门发言人詹娜·莱尔指出，这一决定是基于“该工具可能会对学生学习产生负面影响，以及对其内容的安全性和准确性的担忧”。

人们普遍表示担心，该工具可能会鼓励学生抄袭。詹娜·莱尔说，虽然ChatGPT能够为问题提供快速而简单的答案，但它没有培养批判性思维和解决问题的能力，而这些能力对学术和终身成功来说是至关重要的。

2022年12月27日，美国西北大学的一个团队在预印本论文bioRxiv上发表了一篇文章。这项研究中，研究者让ChatGPT学习发表在《柳叶刀》《美国医学会杂志》等顶刊上的文章，并撰写50篇医学研究摘要，然后让抄袭检测器、人工智能输出检测器和期刊审稿人将这些摘要与原始摘要比较，找出ChatGPT编造的摘要。

结果发现，ChatGPT生成的摘要全部顺利通过了抄袭检测器，人工智能输出器找出了66％的生成摘要，期刊审稿人仅正确识别了68％的生成摘要和86％的真实摘要。研究者们表示，使用大型语言模型进行科学写作的道德和可接受边界需要被进一步明确。

《自然》杂志最新发布的规定称，任何大型语言模型工具都不能成为论文作者；如在论文创作中用过相关工具，作者应在“方法”或“致谢”或适当部分明确说明。

王帅认为，用AI写论文这样的事情，技术上一定会发生的，而且知识获取的门槛越来越低，“我觉得发展方向上更多不一定是禁止它，而是说教育评估的标准和理念需要发生变化。相比那些大段输出的、能够在机器的帮助下写得更好的文字，思考的质量、深度和研究的原创性等将会越来越重要”。

这就好像一项新的技术，比如说汽车、飞机被发明了，不可能说不用它们，关键是如何使用、如何规范。从这一意义上来说，王帅表示，以ChatGPT为代表的生成式人工智能的出现，围绕它及其应用相关的各方面都没有跟上，包括法律、教育、社会、伦理等。实际上，就算是圈内人，也没有完全理解AI领域正在发生的事情意味着什么。

2022年12月，《大西洋月刊》在《大学论文已死》的文章中警示，没有人为人工智能将如何改变学术界做好准备。“如今AI模型远比我们想象的更强大，而我们用于探索它们的技术却非常幼稚。”OpenAI实验室的人工智能政策专家杰克·克拉克在近来的一篇文章中写道。

刘少山也认为，目前，业内没有能力去处理AI带来的可能的社会影响，因为人们对它的了解还很有限，这是最大的问题。比如说，尽管美国部分学校禁用ChatGPT生成的内容，但现在却没有手段检测和区分机器与人类生产的内容，也就更加难说防御机制，“因为GPT这些技术太新了，监管部门也没办法去理解。我认为，在几年时间内，网络上会有很多虚假信息的出现”。

每一次AI出现一个新东西，大众总是会觉得某种巨大的变化将要来临，并且往往伴随着机器代替人工的担忧。然而，王咏刚说，人们一方面太容易夸大AI短期内取得的成果和影响；另一方面，却又忽视AI正在发生的、真正可能带来不可逆的长期变化。

在他看来，短期来说，ChatGPT等人工智能的应用仍旧是工具式的，它会提高效率、替代一部分工作，但真正值得担心的是，随着计算机能够处理的数据结构、模型、算法越来越膨胀和复杂，里面可能有大量的“黑盒子”运算，人们未必能预测其最终输出的结果。会不会在某个时间点，人工智能会跨越某个关键的节点，进入到一个我们尚未看到的世界，没有人可以预测。

（文中王帅为化名，实习生李金津对本文亦有贡献。）

记者：彭丹妮

举报/反馈

ChatGPT应用层强化训练：提高对话质量

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章