文章主题:人工智能, ChatGPT, 思维方式, 语言模型

666AI工具大全,助力做AI时代先行者!

公众号规则是部分推送,您只有设了星标,才能及时接收最新推送从鹦鹉,到乌鸦

1/6

人工智能不只是 ChatGPT

在上周末的”思想钢印”公众号上,我们发布了一篇探讨特定思维方式的文章。本文将延续前半部分的內容,同时为您呈现新的观点和新撰寫的後半部分,主題围绕著我們在這篇文章中關注的思維模式。透過深入探討這個思維模式,我們希望能夠為讀者提供更多有價值的思考角度。

在 ChatGPT 风靡全球之后,一个有趣的段子广为流传:过去,我们设想的人工智能,是创作诗歌、绘画和音乐方面的助手;然而,出乎意料的是,最终成为主导的却是人工智能在文学、艺术和音乐领域的创作,而我们自己在厨房中烹饪、洗涤和维修电脑方面却逐渐变得无助。这个变化,无疑对我们提出了新的挑战和思考。

白领危机四伏,蓝领暗自庆幸。

然而,ChatGPT 实际上只是人工智能历史上的第一个爆款应用,又是以一对一对话形式展开,效果又超出了我们的心理预期,很容易让我们产生一个 ” 人工智能能说会道 ” 的错觉,进而让我们觉得,它未来可以取代很多白领的工作。

其实,ChatGPT 底层的自然语言大模型 GPT,只是众多人工智能大模型中率先 ” 涌现 ” 的一个,它更倾向于生成文本的能力,所以看起来都是写写文章,说说话,画画画,但并不是说人工智能就只能干这些,你总不能因为赵本山演小品,就以为东北人只会演小品吧?

所以说,哪有什么 ” 只取代白领的工作 ” 这么简单的事啊,取代蓝领工作的人工智能早晚也会来的。

仅就自然语言大模型而言,最有名的有两种方向,除了 GPT 模型外,还有 Google 的 BERT 模型,两者的核心区别在于目标不同,GPT 更倾向于生成文本,而 BERT 模型更倾向于理解文本,更不用说还有更多开发中的各种方向的人工智能模型。

这个区别可能人类无法理解,不理解文本怎么生成文本呢?

但这个问题对 AI 来说,并不存在。

本文就从这个话题开始,聊一聊 ChatGPT 跟人类的 ” 思考方式 ” 有什么不同。

2/6

文科的 GPT 和全科的 BERT

在不理解的基础上,如何生成内容?大家可以参考一部励志日本电影《垫底辣妹》。

这部电影描述了一个学业成绩不佳的学生,在一年内通过努力复习,成功考入我国顶级学府的故事。这位学生的成绩在全体学生中排名倒数第一,然而经过不懈的努力,他的成绩有了显著提高,最终进入了全国前2%的优秀学生行列,实现了令人瞩目的跨越式成长。

这个神奇的故事之所以能实现,是因为她只要考 ” 英语、小论文、历史 ” 这三门强调记忆的科目,她不需要很深的理解,只需要记忆和 ” 生成 “,注意重点是——不考数学、物理等注重推理的科目。

而 GPT 模型的成功,就像 ” 垫底辣妹 ” 一样,很大程度在于选择了 ” 语言生成 ” 为目标的捷径,从而让它看上去的效果比它实际上的突破更明显——这一点跟现实中一样,一个能说会道的员工,总是比只会干实事的员工,看起来更能干。

GPT 模型就像文科毕业生,由于其在生成文本方面的强大能力,毕业后最大的 ” 就业去向 ” 是自动生成文章类的 ” 工作 “、包括新闻、广告文案、创意内容、法律文书、文秘、各类咨询,等等;其次的 ” 就业去向 ” 是作为聊天机器人、虚拟助手、智能客服,等等,进行更加自然、流利的对话。

相比而言,BERT 模型虽然也是一个文科生,但也要学习数学、物理这一类注重推理的课程,全面发展。BERT 模型需要 ” 理解 ” 文本的内容,GPT 模型则不一定。

GPT 和 BERT 是两种不同的语言模型,它们的训练目标和实现方式有所不同。GPT 的训练目标是通过最大化下一个单词的条件概率来预测下一个单词,从而完成生成任务。这种方法使得 GPT 能够生成连贯、有意义的文本,并且在生成过程中能够利用上下文信息进行预测。BERT 的训练目标则是随机掩盖一些输入词汇并要求模型预测这些词汇,强迫模型预测缺失的单词,因此它的理解是到词汇这个级别的。这种方法使得 BERT 能够更好地理解句子结构,并且在与人类交互时表现更好。虽然这两种方法在实现上有所不同,但它们都是为了提高语言模型的表现而设计的。

原始文本存在一定的误解风险,尤其是由GPT生成的文本。尽管人们对于GPT的神奇之处已经有所认识,但在大规模应用中,它在非生成内容领域的表现仍存在不足。

作为一名文章写作高手,我将按照您的要求对原文进行改写。以下是我改写后的版本:例如,当您向AI助手提出请求时,您可以这样表达:“您好,AI助手,请帮我预订一家位于陆家嘴附近的粤菜餐厅,人均消费大约在500元左右,预定时间为明天晚上。”

对于这个句子,GPT 模型的 ” 理解 ” 是从过去的语料训练中,判断 ” 陆家嘴、粤菜、明天晚上、人均消费、500 元 ” 这些词的组合而不是词本身的意义,由此来判断自己应该输出什么样的内容,它对于语言的最小理解单位是句子,而不是词汇,会导致 ” 模型产生幻觉,编造训练中从未有过的数据 “。所以我们有时看到 GPT 推荐必胜客等成都小吃的离谱结果,因为它并不理解 ” 必胜客 ” 的属性,它还会把数学计算中的 1995 当成年代。

在GPT-4中,我们已经看到了一些显著的改进,但我们必须认识到,由于其基础模型仍类似于一个“文科生”,因此在处理更复杂问题时,出错的可能性依然存在。这种情况下,我们可能会陷入一种尴尬的境地,即经常与粤菜馆一同出现的咖啡馆。

由此看来,GPT 模式不会是终点,AI 代替人类的工作,文本类只是一个 ” 开胃菜 “。

GPT-5即将面世,人们不禁要问,随着GPT模型进化速度的加快,它能否真正理解和模拟人类语言呢?

这就要涉及到,到底我们应该如何定义 ” 理解 “?人类又是如何 ” 理解 ” 的?

3/6

相关性不等于因果性……吗?

熟悉逻辑学的读者一定知道,它有一个著名的说法:相关性不代表因果性,相关性只是对现象的描述,因果性才是现象之间的内在联系。

所以有人说,人类与人工智能的区别在于,人可以判断因果关系,而人工智能只能判断相关性。

这个观点的后半段是正确的,目前所有的人工智能模型,都是通过学习数据中的相关性来进行预测和推理。

GPT 模型完成任务的方法就是 ” 猜猜下一个概率最大的词是什么 “,根据输入的一段文本,预测下一个单词出现的概率分布。比如给定前面的句子 ” 我喜欢吃?”,模型可能预测下一个单词为 ” 苹果 ” 的概率是 0.2,” 香蕉 ” 的概率是 0.3,” 披萨 ” 的概率是 0.1,等等,这些概率值的总和为 1,代表了所有可能的下一个单词的概率分布。

根据这个概率分布,选择最有可能出现的单词。所以 ChatGPT 都是一个字一个字地蹦出来的,跟刚刚学会说话的小孩子一样。

BERT 模型的复杂之处也在于概率判断,它会考虑每一个单词与前后文的关系,还要反向预测 ” 喜欢吃苹果?”,所以更准确,也更需要更多的训练。

人类认为,自己的判断靠的是因果关系,先学习各类事件之间的因果联系,再去推断出某个事件是另一个事件的原因或结果。所以,早期人工智能的方向是模仿人类的思维,去建立因果关系。

可当专家们想用计算机语言描述因果关系时,才发现此路不通——人类自以为严谨的因果关系,可能并不存在。

看过《三体》的读者,都应该对其中哲学家罗素的 ” 农场主假设 ” 有深刻的印象,农场里有一只火鸡科学家,通过长期观察,发布了一个科学规律,每次农场主来,就会有食物,两者之前存在因果联系。结果复活节前,农场主带来的不是食物而是屠刀。

不要以为 ” 把相关性当成因果性 ” 只是普通大众缺乏科学常识导致,我们所认为的因果性,正是站在火鸡科学家的角度,从科学的角度,想要证明两件事之间存在严格的因果几乎是不可能的。

抽烟与肺癌的因果关系,现在医学已经广泛认可,但这只是 ” 认可 “,认为抽烟与肺癌存在高度的相关性,而不是 ” 证明两者之间存在因果关系 “,因为你无论用什么方法,都无法严格证明。

哲学家大卫 · 休谟早在 300 多年前就称之为” 因果关系幻觉 “,他认为:” 我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。”

更糟糕的是,基于经验的因果判断并不是人类独有的能力,比如人工智能学家最喜欢研究的动物——乌鸦。

4/6

人工智能,从鹦鹉到乌鸦

乌鸦喜欢吃坚果,但它弄不开坚硬的外壳;乌鸦发现汽车可以帮它压碎外壳,可行驶中的汽车又太危险了;乌鸦还观察到,有一样东西可以让汽车停下来——红绿灯。

于是乌鸦建立一个策略:叨着坚果在路边等候,在红灯时,把坚果丢在汽车轮子前,等绿灯能行后,汽车就可以将坚果压碎,再等下一次红灯,它们就可以吃到坚果了。

但我们知道,乌鸦不可能懂 ” 因果律 “,做不了数学题,它们只是像人类一样,观察到红绿灯闪烁和汽车的运行,汽车开过与坚果破碎,这两组现象之间存在着相关性。

2010 年,人工智能专家约瑟夫 · 魏兹提出了乌鸦与鹦鹉的比喻,来描述人工智能未来的方向。他认为,鹦鹉是一种高度训练的动物,它们可以通过反复模仿来掌握特定的技能,但是在新的情境下,它们就无法产生新的解决方案;而乌鸦是一种具有高度自适应和学习能力的动物,可以通过试错的方式不断学习,从而能够在各种不同的情境下灵活应对。

于是人工智能科学家们产生了一个共识:相关性就是因果性,是一套描述因果关系的语言体系,它的单位是 ” 概率 “,因果关系不是 0 和 100%,而是 15%、60%、99%,等等。

于是就有了贝叶斯算法,有了声音模拟信号变成数字信号,才有了手机通信,才有了邮件反垃圾系统,以及更复杂的大数据推荐和人工智能算法。

人类之所以自诩 ” 理解因果关系 “,恐怕是因为数学,这是人类唯一掌握的建立在严格因果性上的方法,而计算机运作恰恰是基于严格逻辑推理,所以,过去的人工智能专家总是希望能基于这种严格的因果关系实现人工智能。

偏偏人工智能最终突破的方向,是基于贝叶斯概率的相关性,第一个爆款级人工智能应用 ChatGPT 最不擅长的就是做数学题,因为数学题的解题步骤和方法通常需要基于因果关系的逻辑推理,而 GPT 模型在生成文本时只是一种概率判断,你变着法子问它同一个问题,它可能有十种不同的答案,这显然不是数学的思维。

结果,还是概率战胜了逻辑推理,相关性战胜了因果性。

事实上,人类也是擅长概率判断的,只不过,我们通常称之为 ” 经验 “。

5/6

人类也会贝叶斯计算

如果你是一个非常有经验的售货员,面对一位走进店铺的客户,你要时刻不停地根据客户的举动,判断客户的成交概率,才能决定花多长时间去向客户推销,有经验的销售员从不会干巴巴地介绍产品,而是进一步询问客户的需求,选相应的推销重点,并且决定给出多大的折扣把客户拿下。

你判断客户成交概率的过程,与人工智能猜下一个单词的贝叶斯算法,其实是一回事。

想象一下,一位中年男性走进你的店,你首先根据经验知道,所有进店的中年男性,有 20% 会买东西——这就是贝叶斯算法中的 ” 先验概率 “。

你观察到,他在店里看了一圈,超过 10 分钟以上,此时你开始把成交概率修正到 29%,并开始主动询问。

你是如何修正成交概率的呢?实际上就是贝叶斯计算:

以往的经验告诉你一个条件概率:在所有最终买东西的人中,停留超过 10 分钟以上的占 50%;那些最终没有买东西的人中,停留超过 10 分钟以上的,仅占 30%。

根据贝叶斯算法:此人成交概率为:20%*50%/ ( 20%*50%+80%*30% ) =29.4%(不知道怎么计算的,可以看我的文章《》)

接下来,客户开始咨询,根据咨询这个行为对应的条件概率,这个成交概率猛得上升到 60%;

可此时,他接到了一个电话,不好,历史证明这种情况下的成交概率会下降,于是降到了 50%;

还好,这是一个垃圾电话,他挂掉电话,直接开始谈价格,很好,根据谈价格的行为,最终成交概率又上升到 85% ……

在这个过程中,虽然一开始你只有一个与实际结果相差很大的先验概率,但通过掌握更多的信息,这个概率会越来越接近实际情况—— 0 或 100%,你就可以作出应对。

这些条件概率,都是在以往大量的销售实践中,渐渐总结出来的,并且始终不断更新,比如今天的这个中年男人,在 85% 的成交概率下,最后竟然没有买,这个经验就会改变你前面的那些先验概率和后面的一系列条件概率。

所谓 ” 有经验 “,就是在某个专业方向,掌握了大量的条件概率。

很多人可能会说,可我根本不知道条件概率是什么,也不知道怎么进行贝叶斯计算,我只是凭感觉罢了。

那么,这个感觉又是什么呢?

6/6

人脑,也是一套特殊的算法模型

人类的学习方式中有一类特殊的隐藏学习,学习者并不知道自己在学习,也没有人教,也不知道自己什么时候学会了,就算学会了,也无法总结其中的一些规律。

心理学家称之为 ” 内隐式学习 “,最经常被引用的例子是 ” 母语学习 “。母语学习都是在上学之前完成的,几乎没有正式的学习过程,习得后,也无法总结语言的一般规律。

这就是前面所说的” 感觉 ” 的来源,实际上就是大量的贝叶斯计算。

人际关系情感关系处理的学习,育儿与亲子关系的学习,欣赏品位的提升,等等,一切规则模糊领域的学习,都至少有一部分需要内隐式学习。

我们在上学前的学习方法,基本上是内隐式学习,上学后就变成了主动式学习,工作之后,内隐式学习的重要性又开始渐渐提升。

人到底是如何进行 ” 内隐式学习 ” 的呢?不知道,因为人脑是一个黑箱。

就像GPT 的人工智能训练过程,也是一个黑箱,都说它突然间就 ” 涌现 ” 了,就像儿童有一天忽然开口说话了、站起来走路了,其中到底发生了什么,没有人知道。

人脑,也是一套特殊的算法模型,跟人工智能没有本质的区别,只是复杂得多——黑箱设计出的黑箱,难怪马斯克会担心,不知道它在无数次迭代后,会出现什么。

当然,关于人脑与人工智能在认知上的区别,还有人提出一些标准,比如情感、自我意识、还有顿悟时刻,这些我以后有机会再分析。

如果您还没有关注我,可以点击下面的名片。

与 ” 思维方式 ” 相关的文章

AI与人类思考方式的差异:从ChatGPT到乌鸦

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!