文心一言,比ChatGPT晚出生的学霸
本科论文

文心一言,比ChatGPT晚出生的学霸

作者:吴辰光、李汭遥 备受瞩目的国产版ChatGPT终于来了。 3月16日,百度发布新一代大语言模型、生成式AI产品文心一言。从现场展示看,文心一言在某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。 但或许有了谷歌仓促应对ChatGPT在演示时出现重大错误的前车之鉴,此次百度没有做现场演示。又或许是在百度发布会的两天前,OpenAI推出升级版ChatGPT-4,再一次将门槛提高,打乱了百度的节奏。总之,与一个月前的高调预热相比,此次发布低调了许多。 百度创始人、董事长兼首席执行官李彦宏也多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大,未来这段时间它一定会飞速发展,日新月异。 但不管怎样,大语言模型是无法突击速成的,百度能成为第一个对标ChatGPT的中国科技企业,终究是向前迈出了一步,而如何缩短与OpenAI的差距,将是下一步的看点。 文心一言如约而至 3月16日,百度召开新闻发布会,围绕新一代大语言模型、生成式AI产品文心一言展开。现场展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。 在文学创作场景中,文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。 在商业文案创作场景中,文心一言顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。 面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。 中文理解方面,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。 多模态生成方面,李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力,文心一言甚至能够生成四川话等方言语音,但视频生成能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。 李彦宏表示,多模态是生成式AI一个明确的发展趋势。未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。 从文心一言的表现看,某种程度上它具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。但整体而言,这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。 CHIP奇谱科技总编罗国昭表示,文心一言不如预期但在预料之内,很多人会拿文心一言和ChatGPT-4相比,觉得无论在语言理解能力还是功能特性上都有较大差距,但这是以静态的方式来看待发展中的事物,其实双方都处于快速成长过程中。 在DCCI互联网研究院院长、知名互联网学者刘兴亮看来,文心一言比预期要好一些。虽然和ChatGPT总体上还有差距,但对于中文的理解更好一些。同时,文心一言抢先一步的生成图片功能也是个亮点。 高调预热低姿态发布 与一个月前的高调预热相比,此次发布低调了许多。 2023年伊始,随着微软对OpenAI追加数十亿美元的投资,让ChatGPT在国内刷屏了。百度、阿里、腾讯、华为等大厂纷纷表示自己在大模型领域已展开布局。此后,包括原美团创始人王慧文在内的多位科技圈大佬也纷纷发文宣布打造中国的OpenAI。其中,百度给出的信息是最详细的。 2月7日,百度通过其官方公众号宣布将推出类ChatGPT产品文心一言,引发热议,百度港股股价盘中一度拉高17%。一周内,已有上百家企业宣布将接入文心一言。李彦宏曾表示,中国AI市场即将迎来爆发性的需求增长,其商业价值的释放将是前所未有的、指数级的。 可见,无论是市场还是百度自己,都对文心一言充满信心。但GPT-4的出现或许打乱了百度的节奏。 3月14日,OpenAI正式发布了GPT-4,这个大型多模态模型可以实现强大的识图能力、字数限制提升至2.5万字、回答准确性显著提高、生成歌词、创意文本,实现风格变化等多项飞跃式提升,在各种专业测试和学术基准上表现与人类水平相当。总之,与GPT-3.5相比,GPT-4的能力大幅提升,就像是小学生跨越升级到高中生。 再回到文心一言的发布现场,李彦宏先是打了一剂预防针:“从某种意义上说百度为此(发布文心一言)已经准备了多年,我们十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。但也不能说我们完全ready了,文心一言要对标ChatGPT、甚至是对标 GPT-4的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。” 在李彦宏看来,是需求推动了文心一言的面世,百度的很多产品,从搜索到智能云,再到自动驾驶,到小度,大家都有需要,更重要的是客户需要,合作伙伴需要。 刘兴亮认为,ChatGPT-4确实给了百度很大的压力,但什么产品都不可能是完美的,新产品总要拉出来溜溜的。现阶段看,文心一言连续对话能力、逻辑推理能力与ChatGPT-4还是有一定差距的。 罗国昭告诉坤舆商业观察,文心一言的上线多少有仓促的因素,但百度的AI能力不用质疑。ChatGPT只是AI的一种模式,并不是全部,而百度的AI之路也不是从文心一言开始的。AI不仅是语言的理解能力,更依赖于其他多维模式,如图形、视频等。“AIGC好不好看、回答尴尬不尴尬,有相当成分的主观因素。对于技术的脉络,大家并无差距。” 未来仍有机会 一个插曲是,在文心一言发布后,百度股价经历下跌和大幅反弹,这表明市场对文心一言的技术能力、使用体验、商业化前景等维度存在巨大分歧,亦导致公司股价大幅波动。 中信证券认为,作为首次亮相的语言大模型,在模型微调、体验反馈、优化落地等方面仍需强化,同时参考海外经验,语言大模型从预训练完成到实际发布落地,亦需经过1-2个季度的优化与升级。而百度此次亦在生态合作伙伴中进行内部测试,通过测试实现产品的迭代与升级。 自2月份以来,已有超过650家企业宣布接入文心一言生态,未来预计会有更多企业进行申请参与。 中信证券预计,文心一言在短期仍将聚焦迭代升级。随着经济的持续复苏,百度的核心业务有望逐季度改善,并对当前公司估值形成支撑,后续AI模型的升级优化亦将带来估值弹性。维持百度的“买入”评级。 实际上,百度积累的优势不是一朝一夕可以完成。在过去的10年里,百度在AI的研发投入超1000亿元。 李彦宏指出,无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,无法速成。 人工智能时代,IT技术的技术栈发生了根本性变化,从过去三层到“芯片-框架-模型-应用”四层。百度是全球为数不多、在这四层进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。 李彦宏认为,百度AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。事实上,超大规模模型的训练和推理,给深度学习框架带来了很大考验。比如,为了支持千亿参数模型的高效分布式训练,百度飞桨专门研发了 4D 混合并行技术。 在全球范围内,在四层架构的每一层都有领先产品的公司几乎没有,这是百度独特的优势。后续,芯片、框架、大模型和终端应用场景可以形成高效的反馈闭环,帮助大模型不断调优迭代,从而升级用户体验。 虽然目前还无法与ChatGPT相提并论,但百度毕竟是目前国内第一个对标ChatGPT的企业,未来一段时间内,在其他国内大厂没有进一步动作的情况下,百度仍肩负着国产ChatGPT的崛起重任。 “整体上要追上ChatGPT,个人觉得挺难的。因为你跑别人也在跑,ChatGPT作为先行者用户量越大数据越多,用户参与打分的行为越大,对于后来者来说,追赶的难度就越大。”刘兴亮说道,“但百度不是没有机会,如果说ChatGPT-4是目前的综合冠军,那百度可以在个别领域去争单项冠军。” 罗国昭认为,相比英文语料已经非常好的结构化,中文语料有着明显的差异。用发展的眼光看,在中文的环境里,本土的百度更具优势。同时,对这种产品来说,个人使用是小打小闹,更多的要看行业应用的可能性,行业应用可以快速导入商业应用。真正的AI能力既是企业的核心竞争力,也是国家的战略竞争力,这个是非常大的一个前景。 “目前OpenAI也处于初步的商业化过程中,百度有机会。ChatGPT-4是个学霸,文心一言则是晚出生一点的学霸。”罗国昭说道。
ChatGPT超能助手:科研新纪元,如何高效又不失创新?🔥
本科论文

ChatGPT超能助手:科研新纪元,如何高效又不失创新?🔥

这篇文章介绍了ChatGPT在科研领域的多种应用,包括论文搜集、润色、邮件撰写以及科研项目的科普解释。它被证明能帮助非母语者提高日常科研效率,如生成学术邮件、起草请假信、自动提供代表性论文和修改论文等。虽然存在编造不存在论文的风险及与学术数据库的差距问题,但ChatGPT以其强大的自然语言处理能力展示了其在科研辅助中的潜力和便利性。作者还强调了其幽默化科普解释的能力,使复杂概念更易理解。同时,文章提供了使用ChatGPT生成标题和缩写的示例,这对于提高论文质量和申请基金具有积极意义。
ChatGPT:从婴儿语言到超凡智能的探索之旅?
研博论文

ChatGPT:从婴儿语言到超凡智能的探索之旅?

本文探讨了ChatGPT爆火背后的技术逻辑和学习过程。作者通过类比人类教儿童语言,指出ChatGPT最初是通过不断重复训练建立词语理解和文本分割能力,随后通过关注重点(attention)来处理大量信息并形成自己的阅读策略。随着学习的深入,ChatGPT具备了生成预训练和领域适应的能力,可以理解各学科知识并具有接近人类聊天的水平。作者以此说明科技进步并非一味追求抽象和方法论,而是需要逐步理解和贴近实际应用。
ChatGPT是否真的’聪明’?我们该怎样培养未来人才?少年时带你一探究竟!
本科论文

ChatGPT是否真的’聪明’?我们该怎样培养未来人才?少年时带你一探究竟!

文章围绕ChatGPT引发行业关注,指出其虽能提供信息但需引导才能协作出较好答案,批评其像水平有限的领导或本科生论文。作者强调未来不存在铁饭碗工作,提出培养青少年终身学习和跨学科能力的重要性,并以《少年时》系列丛书为例,展示了对数据驱动时代下的思维模型教育。该套丛书专注原创科普,被视为科普圈中的清流。最后,针对感兴趣的读者,提出了图书原价的询问。
阿里通义千问何去何从?企业测试后神秘下线,未来应用场景会是哪?”
期刊论文

阿里通义千问何去何从?企业测试后神秘下线,未来应用场景会是哪?”

阿里云发布自研大模型聊天AI"通义千问",虽随后删除邀请测试公告,但部分用户仍可进行实测。该产品在4月4日预热中通过脱口秀演员鸟鸟展示了分身功能,模仿其音色和风格。通义千问具有设定场景的对话模式和9款“百宝袋”应用,旨在提高用户体验和粘性。尽管存在问答能力有待提升的问题,大模型专家认为持续数据优化和生态建设对其未来发展至关重要。作为阿里巴巴集团广泛业务背景下的AI工具,通义千问的应用领域有望扩展至各个数字化产品线。国内厂商如百度、华为也在加强相关技术布局。
🔥科幻世界拒AI作!机器人对话时代,作家们如何自处?🌟
本科论文

🔥科幻世界拒AI作!机器人对话时代,作家们如何自处?🌟

国内科幻期刊《科幻世界》将拒AI创作科幻小说,因认为这类作品缺乏人情味和未来感。早有美国杂志因AI投稿过多而暂停接受。尽管AI已在网文等领域产生一定“替代”,如AI网红和AI原画,但作家们对此并非全无担忧,对ChatGPT等先进AI的涌入持包容态度,视其为创作工具,认为文学领域未来将分化,作者与读者喜好可能更趋多元。AI目前水平尚平庸,但在创意写作方面展现出潜力,如能辅助场景构思,提高作品质量。
大模型横空出世!揭秘AI新能力?GPT-4的涌现现象与未来疑问
本科论文

大模型横空出世!揭秘AI新能力?GPT-4的涌现现象与未来疑问

1000多位AI领域知名人士联名呼吁暂停GPT-4大模型研发,因其在理解常识和推理能力上的惊人突破挑战了现有技术的理解。尽管AI已能局部超越人类,但在广泛运用和处理常识时仍面临困难。随着语言模型规模增长,这些新能力迅速涌现,如GPT-4能多模态理解和幽默感,以及通过复杂推理解决谜题。这背后的涌现现象引起学界与产业界的关注,相关研究正在深入探索参数规模与性能的关系。
你关注的来了!吴军博士:ChatGPT的能力边界在哪?
研博论文

你关注的来了!吴军博士:ChatGPT的能力边界在哪?

ChatGPT在今天被热炒,主要的原因不是因为它能和人聊天,或者能帮助人做作业。其实做作业这件事它做得并不好,虽然有些中学和大学的问题它能够解决,但是对于绝大部分问题,它给出的答案都是车轱辘话。 那ChatGPT被热炒的原因是什么呢?其实,ChatGPT真正可怕的地方在于,按照当前的速度发展下去,不断扩大应用领域,它可能可以解决很多原本需要人类才能解决的问题。 现在问题来了,都有哪些问题是ChatGPT能解决的?哪些是它不能解决的呢? 前面说了,ChatGPT的基础是语言模型,因此,它的极限也被语言模型的极限所限制。这一讲,我们就看看语言模型都能做什么事情。理解了这个问题,你也就知道了ChatGPT的能力边界。 我把语言模型能做的事情分为三类: 第一类:信息形式转换 第一类是将信息从一种形式转换为另一种形式,无论是语音识别还是机器翻译,都属于这一类。 在语音识别中,输入的信息是语音声波,输出的信息是文字,它们是一一对应的,因此是信息在形式上的转化。机器翻译也是如此,是从一种语言的编码,转换成另一种语言的编码。 不过值得指出的是,任何形式的信息转换通常都会损失一些信息。比如,在机器翻译中,语言中所蕴含的文化常常就损失掉了。这倒不是机器的问题,在用人进行的翻译的时候,也经常会出现这种现象。比如,唐诗翻译成英语往往就显得乏味,英文的诗歌翻译成中文,也常常显得平淡无奇。有些贯通中西的翻译家,会试图把文化的元素加回去,但是计算机做不到这一点。 在这一类事情中,一个通常不被人们注意的应用是在医学领域,比如基因测序。 任何物种的DNA都是四种碱基ATCG的组合,当然,它们不是随意排列的,并非所有的组合都是合理的。比如,不同物种同一功能的碱基片段其实是差不多的,每一个基本的单元就有点像文本中的文字。因此,根据一段碱基,有时候就能识别下一段碱基。 当我们进行基因测序时,要把缠绕在一起的DNA序列剪开,一段段地识别。而剪开的时候,就有可能剪坏,因此,通常都是把DNA复制很多份,剪开以后做对比,以免每一份都没有剪好,识别错了。 当然,对于没有剪好,或者识别得不是很清楚的片段,就可以通过语言模型识别、纠正错误。只不过这项工作所使用的语言模型是基于碱基对的,不是基于文字的。 此外,还有一件事也属于这个范畴,就是让计算机写简单的程序。 2014年,著名的机器翻译专家奥科在离开Google之前领导过这样一个项目,就是让人把要做的事情描述清楚,然后让计算机写Python程序。 奥科的想法很简单,既然能够让计算机将一种人类语言的文本翻译成另一种人类语言的文本,就应该能将自然语言描述的文本翻译成机器语言的脚本,也就是程序。 在2014年的时候,奥科的团队已经能把功能描述清楚的简单任务书变成Python程序。不过,当时的困难是,人其实也无法把自己的想法非常准确地用自然语言写清楚。 从信息论的角度看,如果有了完美的算法,这一大类问题都可以得到完美的解决。对于这些事情,最终人是做不过机器的。 第二类:根据要求产生文本 语言模型能做的第二类事情是根据要求产生文本。今天ChatGPT做的主要工作,像回答问题、回复邮件、书写简单的段落,都属于这一类。 这一类工作,输入的信息量明显少于输出的信息量。从信息论的角度看,这会产生很大的不确定性,需要额外补充信息。而补充的信息的来源,其实就是语言模型中所包含的信息。因此,如果语言模型中包含了某个话题的很多相关信息,它就可以产生高质量的文本;否则,它给出的答案或者所写的内容就不着边际。 这一类应用对于语言模型来讲是最难的。这倒不是因为语言模型做得不够好,而是因为站在信息论的角度看,不可能通过少量信息得出更多的信息。因此,这类工作其实或多或少都需要人工干预。 今天,除了ChatGPT,还有很多类似的写作软件,它们写出来的内容看上去都不错。但是,在这些软件背后,其实有一个由人组成的编辑团队,他们会从几十篇候选文章中挑出一篇提供给用户。今天,在硅谷地区还有一些评估内容质量的外包公司,他们有专人评估计算机产生的文本质量,然后反馈给计算机继续学习、改进。 我就ChatGPT的写作水平,专门询问了两位ChatGPT的深度用户。他们本身就是研究机器学习的博士,出于工作的需要,天天都在分析ChatGPT的写作水平。 他们告诉我,一种最大化的发挥ChatGPT写作能力的做法,就是你和它反复迭代。他们是这样做的: 先给ChatGPT提要求,让它写一篇文章。绝大部分人到此为止了,但是他们会对机器写的文章提出新的修改要求,然后它就会重新给你写,然后你再提要求。这样一来二去,几次迭代下来,文章质量就大有提高了。 这两个人一个是美国人,一个是中国人,他们对ChatGPT最终写出来的文章评价差异还是很大的:美国人认为,质量一般,可以作为邮件发出,但不精彩,不能作为自己的写作,否则别人会觉得自己水平太低;而中国人因为母语不是英语,觉得它写得不错,省了自己很多时间,虽然同样水平的文章他也能写出,但是可能要花更多的时间选择用词和语法。 当然,有人可能会觉得,ChatGPT对于一些专业问题给出的答案,甚至比专家还好。这种现象是存在的,正如我们前面所讲,它学过的知识可能是我们的成千上万倍。但那是因为其他专家已经就所提出的问题进行过了研究,有现成的知识可以提供给它。 比如,你如果问计算机“天为什么是蓝色的”,能得到完美的答案,那是因为之前有物理学家进行了研究,并且他们的解释得到了更多物理学家的认可。也就是说,还是有人工干预在先。甚至于很多问题,其实在互联网上就有比较好的问题答案配对。ChatGPT这一类软件只是把它们整理出来。 相反,硅谷几家大公司的研究发现:ChatGPT做小学算术应用题,甚至参加一些语文考试,比它参加高中的AP课考试,以及研究生入学考试,比如医学院的MCAT考试,成绩要差得多。原因就是,那些小学生的题它没见过,而AP课和MCAT考试都是标准化的,有很多过去的考试题可以找到。 不过,虽然ChatGPT不能自己创造答案,但它还是很有价值的,它可以减少人的工作量。这就如同你在参加物理考试时,计算器可以节省时间一样。但是如果你不懂物理学的内容,即便有了趁手的工具,也照样考不出来。 第三类:信息精简 语言模型能做的第三类事情是把更多的信息精简为较少的信息。 比如,为一篇长文撰写摘要,按照要求进行数据分析,分析上市公司的财报,都属于这方面的工作。 这一类工作,输入的信息多,输出的信息少,因此只要算法做得好,就不会出现信息不够用的问题。 将信息由多变少,就会面临一个选择,选择保留哪些信息,删除哪些信息。 比如,为一本书写摘要,不同的人会写出不同的摘要,他们对于书中哪些是重点内容、哪些是次要内容会有不同的看法。类似的,对于某个上市公司的季度财报,不同的分析师会有不同的看法,他们会按照自己的想法挑选数据作为证据。 同样的,把更多的信息进行精简,也会得出不同的结果,这就要看算法是如何设计的,它所依赖的语言模型之前都统计过什么样的信息等等。 对于这一类工作,最终计算机会做得比大部分人更好。这不仅是因为计算机阅读和处理数据快,语言模型强大,更是因为它在做摘要、做分析或者剪辑视频时,能够做到比人客观。 比如,今天很多人分析财报,会有先入为主的看法,然后根据自己的看法选择数据,有意无意忽略那些重要但不合自己想法的数据。还有很多人在做摘要时,喜欢断章取义。这些问题,计算机通常都能够避免。 但是,计算机的算法也有一个问题,就是缺乏个性化。 我们人类,通常不同的人对于同一本书会有不同的看法。同样是阅读《红楼梦》,有的人把它当作宝黛爱情故事来读,有的人把它当作官僚家庭的生活来读,也有人将它当作中国农耕社会的缩影来读。类似地,同样是将一部电影剪辑成短片,不同人挑选的片段也会不同。 但是,机器做这种事情,结果都是千篇一律的。 这就如同生产线出现之前,手工制作的产品,每一件都有自己的特点;而大机器生产之后,所有的产品都是标准化的。 但是总的来讲,在这方面,人是做不过机器的。这就如同绝大部分手工产品的质量都不如大机器生产的好那样。 前景展望...