文章主题:
温馨提示:本文因通过全面对“ChatGPT和文心一言”代表的“AI语言处理应用工具”进行通俗语言式的科普,故阅读需要4-6分钟。
微软:一方面自从今年2月推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器之后,宣布会陆续将其整合Word、PowerPoint、Outlook和其他应用程序中,便于用户可以通过简单提示自动生成文本。
另一方面,打造上万张(单片就号称计算卡“超级核弹”)英伟达A100芯片为训练ChatGPT提供超级算力,并且部署了几十万张GPU用于ChatGPT的推理。
ChatGPT第一个需要是:干净的知识库
ChatGPT和文言一心都是由超级云计算能力支持、由“知识收集、知识学习、知识外用”三个步骤构成的“语言处理应用工具”。
人机问答的交互、以及生成图文或视频进行知识输出,都只是表现的形式。知识分类、数据标签、单元归集、结构建模、知识增强、对话增强、知识推理、提示构建等等,基于统计概率提升的仿真智能学习之后,再反馈给用户精确信息的外用回答,都有一个不可回避的前提:海量的、标准化的、符合计算机有序处理的知识源头。
简单理解就是“语言处理应用工具”本身是一个智能图书馆。只不过它不需要你像在图书馆里,先找到书、再翻书记录对自己有用的知识点、再写作文那样。
而是,它会像一个客服只需你说出需要什么,然后就自己利用“第几排、第几层、第几本、第几章、第几节、第几段、第几句”有序性查找能力、结合你提出问题之间的关联性,按照评估出来最接近你想要的结果进行组合,帮你写出文字、或编辑出图片、或编辑出视频交给你。
所以,无论说它的知识外用能力有多强,其“语言处理应用”的本质:只是知识拼接,而不是创造发明。
这就好比我们去饭店吃饭、却没有食物。只有图书馆没有图书,无论建筑形体多么富丽堂皇、室内绿化多么漂亮、电梯多么快速,注定结局是倒闭关门。
所有的小型电脑的操作系统,除了微软、仅有基于posix接口的unix类,像大家熟悉的安卓、鸿蒙、linux、iOS、MacOS这些系统。这意味什么,不言而喻!
文心一言有其他人缺的:在线知识库
我国高校与企业研究布局“语言处理应用工具”的时间并不晚。ChatGPT之父山姆·阿尔特曼SamAltman与埃隆·马斯克共同创立OpenAI的时间是2015年。
2015年开始,腾讯的写作机器人Dreamwriter,在采集相关文章的文字结构和针对用户需求的基础上,根据数据输入、触发条件设定、模板风格取舍,经过数据服务、触发、写作、智能校验、智能分发,每年可以创作大约30万篇拥有著作权的作品。此外,腾讯还专门成立了针对类ChatGPT对话式产品的“混元助手(HunyuanAide)”项目组。
清华大学的孙茂松教授,2017年就带领团队研发出能写诗的“九歌”。此外,清华大学唐杰教授带领队研发的ChatGLM也是初具问题和对话功能的千亿中英语言模型。中国科学院的“小初”也拥有视频生成、智能问答、语音合成等多种能力。
阿里云不仅与新华社联合成立了新华智云科技自主研发了媒体大脑,在2017年12月发布了耗时只有10.3秒生成内容的MGC(机器生产内容)视频新闻,而且还在进行“阿里通义AliceMind”大模型的研发。
但是,如同没有或者藏书量的图书馆对读者的吸引力总是不够的限局性一样。
高校的知识图库的知识储备过于专业性、阿里在新浪微博和VC浏览器加持下的知识储备偏娱乐属性、腾讯在微信公众号和图书小说的知识库偏特殊应用场景、字节在头条和抖音的知识库还需成长……
认都不比不上百度文库和百度百科知识储备的“丰富性和实用性”,是“为何对标ChatGPT?靠文心一言最合适”原因。
但是,请不要忘记:百度属于我们的不假,但不是每台电脑都会选择它。
类似ChatGPT 处理知识的标注工程师,文言一心很缺后援团
ChatGPT从知识收集和知识外用的角度看是“语言处理应用工具”、从 知识学习的角度看是“预训练语言模型”。用于训练模型的知识数据同“文心一言”一样,是来源于互联网上包括“网页、博客、新闻报道、社交媒体”在内的大量的文本。
这些文本在计算机语言中是由“0和1”组成的代码数据进行表达;它们在用户输入和接收时的形态是由各种国家的文字语言演变的“图文、视频、声频”信息进行表达。不过,如同大米要经历“先从稻田去泥收割、再进米厂剥壳成米、最后通过运输分发进入千家万户、才能做成可口的米饭”一样。
在线收集后的“知识信息”,也全都必须经历由“脏数据清洗、死数据盘活、活数据调配”的过程,在内容到达用户之前经过“数据检测、校验过滤”后,才能实现“知识外用”。
这都离不开一种并不需要计算机语言编程能力的工作岗位“提示工程师(也有细分叫数据清洗师、数据标注师)”的作用,它和信息平台、电商平台的内容审核员有相似的价值。
不过,数据标注是一项浩如烟海的人力劳动。面对数亿用户、数十亿用户的海量知识应用需求,无论是ChatGPT、还是文心一言对“提示工程师、数据清洗师、数据标注师”的人员需求和成本投入,都达到数以亿计支出的夸张地步。像ChatGPT就直接将一些初加工的信息收集标注工作,外包给肯尼亚的工人们负责。
写到这里就顺便多说两句:
我们可以看到网上有不少关于“人工智能取代某某职业”的焦虑。其实,大可不必如此,伴随着科学技术进步的大范围技术应用,总会在淘汰一些职业的同时派生出另外一些新兴的职业。我们只需做好自己,通过学习去适应就好了。
人工智能的应用技术底层是数学、硬件机器是理化、外用价值是文学和社会科学,既不是人创造了神、也不是人创造了超人,没必要夸大或神化它。如同“鬼神不可怕,为了吸引观注装神弄鬼的人才可怕”的情况是一样……
此外,为了“外用知识无害化”的安全机制、以及“外用知识精调”的概率准确度。文心一言和ChatGPT一样会通过“学习反馈、学习奖励、策略优化”形成闭环,对“多模态语言模型”进行应用调优,这又需要善于利用概率提升机制帮助模型进行调优迭代的更专业的提示工程师。ChatGPT之父山姆·阿尔特曼亲自为这一岗位站台,并且已经开出30 万美元(约 210 万人民币)诱惑的招聘条件。
有“比尔·盖茨和埃隆·马斯克”这俩老板,有微软“先免后收”的变现盈利能力保障,财大气粗的ChatGPT自然不怕“浩如烟海的数据标注”对人力成本的投入。但是,面对当下互联网公司的优编趋势和以“广告收入”为主营来源的百度而言,为免费的“文心一言”进行此类人力投入的成本压力可想而知有多大。
ChatGPT 背后有微软云,文心一言的算力靠山不能比
ChatGPT的总算力消耗约为每秒一千万亿次计算量(3640PF-days)。文心一言主目前虽没有达到这种需求、但相信随着企业和个人用户规模的扩大,其实际对算力的应用也将变成一个惊人的需求。
今年两会科技部王志刚部长谈ChatGPT引用了“踢足球都是盘带、射门,但是要做到梅西那么好也不容易。从这一点看,ChatGPT在技术进步上,特别是保证算法的实时性与算法质量的有效性上,非常难”的通俗比喻,让普通大众能理解“语言处理应用”对云计算需求的依赖程度。
目前,据有关资料显示:全球云计算能力前五位依次为“亚马逊、微软、阿里云、谷歌云、IBM”。百度云在国内云计算能力“阿里云、腾讯云、华为云、天翼云、移动云、百度云、金山云”的排名中仅徘徊在“6-7”位左右。这对于既要满足百度地图、浏览器、移动应用、企业服务、百度云盘等原有需求,还要保证“文心一言”的算力需求,压力可想而知的大。
还好,华为任正非任总在近日坂田总部举办“难题揭榜”的火花奖颁奖典礼上谈及ChatGPT时表态“我们公司除了会做AI的底层算力平台,应用平台不是我们的选项。我们公司别的都不会,所以我们只好聚焦在这方面,为建立一个适应社会需求的算力平台而奋斗”,这也为未来企业间进行“分工协作、集中力量”办大事提供了可能性。
ChatGPT 背后有强大的教育资源,文心一言想拼也挺难
智谱研究联合清华大学唐杰教授率领团队建立的科技情报大数据挖掘与服务系统平台AMiner 发布的《ChatGPT 团队背景研究报告》显示,由87名核心人员组建的研发团队中:毕业于斯坦福大学有14人、加州大学伯克利分校有10人、麻省理工学院有7人、剑桥大学有5人、哈佛大学有4人、佐治亚理工学院有4人、卡内基梅隆大学有3人、清华大学有3人、莱斯大学有2人、华沙大学有2人,很多成员都有世界知名企业的工作经历。从上面这组数据,我们不难看出正在帮助ChatGPT的“预训练语言模型”进行AI深度学习模似的师资力量有多强。
另外,根据伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei教授在2022年4月发布的统计显示,2012-2021年中,在ML(Machine Learning,机器学习)和NLP顶级期刊和会议发表论文数量来看:微软高居排名第二。除了清北和中科院等名校之外,前30的排名中属于企业研发机构的仅有“腾讯、阿里、华为”三家,不见百度踪影。
虽然,我们坚信百度的科技力在国内大厂中也是首屈一指的、也坚信越来越多莘莘学子学成归来会加强文心一言的教育力量。
不得不说目前的“文心一言”,像极了“家里不富、拼爹不行、师资也单薄、亲戚不帮、邻居笑话老爹”的一位,只能靠勤奋好学的精神支持孤独前行的,妄想凭一己之力向上攀登的小丫头。
好了,言归正传:从四十年前开始,尽管我们奋力奔跑、一路负重前行,缩短了与世界发达国家的差距,也取得了于是举世瞩目的成绩,甚至在某些领域领跑世界。但是,从“文心一言”对比“ChatGPT”上可以看到,按照我国《数字中国建设整体布局规划》提出的“到2035年数字化发展水平进入世界前列”的规划指导,我们前进的道路仍充满了艰难险阻。
因此,让我们一起理性认知“ChatGPT和文心一言”代表的“AI语言处理应用工具”,积极准备迎接适应科技文明带来的“职业工作岗位和生活”变化。同时,也给予他们多一些理解支持与鼓励,毕竟他们是代表我们在世界大舞台上竞技的希望!
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!