直播实录|联想CTO芮勇博士谈ChatGPT和新的AI浪潮
随着微软MLLM模型、OpenAI GPT-4、Copilot等先后发布,AI大模型在识图能力、输入限制、回答准确性等已有显著提升,叠加科技部将人工智能定位战略性新兴产业,未来人工智能产业发展空间广阔。3月20日下午,联想集团首席技术官、高级副总裁、AI领域领军人物芮勇博士,做客国泰君安证券研究所《所长对话》直播第一期,与国泰君安研究所黄燕铭所长深入解析ChatGPT的技术发展、应用场景、未来趋势等问题。 芮勇博士是欧洲科学院外籍院士,以及ACM、IEEE、IAPR、SPIE、CAAI、CCF 会士。曾在微软工作18 年,曾任微软亚洲研究院常务副院长。芮博士多次获得学界重要大奖,包括2018 ACM 多媒体技术成就奖、2016 IEEE 计算机学会技术成就奖等。 以下为直播内容核心要点及文字实录。 核心要点 ▶ 大模型的商业应用场景上,预计C端会快速落地,B端则是爆发式落地。由于目前大模型的训练数据更多是通用数据,更易面向C端产生个人应用。B端的部分数据未打通,一旦供给打通,落地将是爆发性的。闭源有利企业短期先发优势,开源则“后劲更足”,有利企业长期生态建设。 ▶ 把一项新技术注入产品,去赋能业务的时候,要考虑很多因素。当前这个阶段,大模型进步非常快,但还是有很多问题没有解决。另外,用户场景的需求本身也不完全一样,应用程序的运行环境也不一样。比如知识更新需要重新训练大模型,费时费力,所以它的时效性有缺陷,无法做到对最新消息的知晓,对信息时效性要求高的场景并不适合。大模型是千亿级参数的,需要设备端和云端实时连接,所以对于网络通讯能力较弱、低功耗的设备不太适用。因此,大模型虽然在很多地方适用,但也有一些场景不适用,作为企业,要去考虑如何调整,如何去抓住机会。 ▶ 黄燕铭认为,人工智能的发展会导致证券研究人员数量可能会在一定程度上减少,大量研究助理的工作可能被机器替代。机器虽然能帮助我们记忆和计算知识,却无法代替人类去感悟智慧。“形而下”的工作可以交给计算机,但是“形而上”的感悟,目前来看,人工智能还很难去帮我们完成。 ▶ ChatGPT横空出世,其表现出来的强大的人工智能能力,让无数人叹为观止。它是一个现象级的技术突破和应用,是人工智能数十年发展历程中又一个重大的突破点和转折点。面对ChatGPT带来的新的机遇和挑战,产业界和学术界应紧密携手,持续推动相关技术的发展和产业应用,让我们的生活更加美好。 以下是国泰君安证券研究所《所长对话》第1期的分享实录: 01 关于技术发展 黄燕铭:ChatGPT不单单是文本生产的工具,其强大的语言处理和生存能力也增加了很多的用户体验,同时也为我们降低了生产经营、交易的成本,同时也提高了企业的经营效率,而这种大规模的适配器以及迭代的能力也是ChatGPT的特点,它在特定的领域、专业语言以及自动化的客户服务等各方面都做出了巨大的成就。我们认为ChatGPT在未来有非常广阔的发展空间,这种情况下我们对ChatGPT未来的发展前景非常看好,在这里我们今天要特别跟芮博来聊一聊ChatGPT的基本情况。 投资者普遍认为这是一个划时代的技术进步,甚至可能替代掉很多人类的工作岗位,请问该如何理解ChatGPT、GPT-4的技术能力,其自然语言处理能力、多模态、定制化相较以往AI模型有何突破,会带来怎样的产业变化? 芮勇:首先,非常感谢黄所的介绍,也非常高兴能够跟黄所来一起聊这个话题。刚才黄所总结的都已经非常精辟了。这个ChatGPT,我觉得它是可以说是一种现象。最近也有不少人在聊,它是一个类似于iPhone 的现象,类似于网景的现象。我们都知道,网景是第一个真正商业化的浏览器,在网景出现之前很多年浏览器就已经有了,但是没有火起来,直到网景出现之后,整个浏览器才火了起来,整个互联网才火了起来。iPhone其实也是一样,智能手机出现了很久,但是没有那么火,到最后真正腾飞起来、火起来是iPhone。 那么ChatGPT也是类似,大家称这是一种现象。AI也是火了有一段时间,但是没有那么火,有起有伏。大模型也出现了挺长时间,那么直到最近不久ChatGPT出现了之后,它才带来了一个大的飞跃,所以我们称为ChatGPT是和网景和iPhone类似的一种现象。 但我更想说,今年ChatGPT非常的火,是表面上的一个现象,更重要的ChatGPT后面起到核心作用的大模型。所以我先想跟大家聊一聊大模型,大模型的英文叫Foundation Model。它是一个基础模型,好比我们盖房子时候打的地基。什么是大模型呢?大模型是用互联网级的、没有标注的数据,来训练千亿级参数的AI模型,这里面有好几个关键字。大模型也是下游很多任务的基础。并且很有意思是,它不用做模型参数的调整,对不同的任务,它不用去调整参数,这个事就非常的奇特了。 这么多的特点,为了便于记忆可以总结为三个字,叫做“高大上”(这里没有褒义和贬义的意思)。“高”是什么意思呢?大模型的训练方式很高明。之前的机器学习,典型的训练方式是一种全监督式的方式。比如说,我如果要教一下机器,这是一个苹果的图像,这是一个橘子的图像。我告诉它,这些图像你都看一看,并且我告诉它这是橘子。它就知道,原来这样的图像是橘子。但是让人工来标注,要花很多的时间、精力和金钱。那么大模型是用自监督的学习方式,它不需要去标注海量的数据。我觉这是非常重要的,在训练方式上很高明。 第二,很高明的训练方式还表现在它使用一种叫做“基于人类反馈的强化学习”,英文叫RLHF,Reinforcement Learning from Human Feedback。有了这个非常强大的训练方式,它就和人类的价值观点越来越近了。比如说,从互联网它可能看了很多东西,但是它不知道哪是对哪是错的,哪个是正义的哪个是不好的。那么,有了这个基于人类反馈的强化学习之后,它就和人类的价值观越来越近了。 高大上的“大”,是说模型规模很大。我们如果还记得,2012、2013年前后深度学习开始火起来的时候,当时很流行的一个人工神经网络模型叫VGG,VGG16大概有 1.38 亿个参数。那今天我们的大模型会有多大呢?GPT-3 有 1,750 亿个参数,是当时的大概有 1,000 倍那么大。这样的规模就使得大模型能够学到大量的模式与常识,甚至建立一定的推理能力。 第二个“大”是指训练的数据大。我刚才提到,它是用互联网级别的海量数据训练出来,这里面包括互联网上的文本、高质量的网页、维基百科、书籍的语料库。它的训练词元(token)大概是千亿级的。所以是训练方式“高”,模型规模“大”,训练数据“大”。 “上”是什么意思呢?这也是一个挺神奇的事,是说它的逻辑推理、知识推理、泛化能力突然之间就能更上一层楼。它的英文单词叫做emergent ability,就是突现的能力、涌现的能力。用一个更通俗易懂的话来说就是,它突然会开窍。 语言模型随着规模的增长,突然对于训练时候没有见过的任务也能够懂是什么意思能够胜任,它开窍了。那么到多大的规模,这个模型才会开窍呢?基本上是在 650 亿个参数,超过这个规模时它就开窍了。...