从大模型走向小模型,谁将是ChatGPT布局to B行业的大赢家?
ChatGPT淘金热 当前,爆发了ChatGPT热潮,吸引众多科技企业陆续加入其中。这与当年美国西部加利福尼亚的淘金热何其相似。 历史总会惊人的相似,ChatGPT聊天机器人好比一座数字化时代的金矿。全世界科技淘金人蜂拥而至,从潮起到潮落,潮水退去之时,能生存下来的可能不是淘金人,而是卖铲子、卖牛仔裤等提供淘金基础工具的那批人。 站在ChatGPT的行业风口,除了超大模型的演进发展,还将诞生更多的小模型专注服务垂直领域,普惠千家万户,将是必然趋势之一。从大模型走向小模型,谁将是未来的大赢家?带着这个问题,我们不妨先来捋一捋ChatGPT背后的算力和经济账。 01 「似乎不止于此」 ChatGPT带动了服务器与GPU增长 事实上,在业内风生水起,ChatGPT带动了不只是互联网、IT、云计算等科技公司发展的新概念,而且可以看到当前聊天机器人也激发了服务器与GPU的市场增长,毕竟并行计算架构的GPU更适合大规模AI训练与推理。眼下国内可见的是,服务器领域的浪潮信息、中科曙光、新华三、长城等也从中受益。 似乎不止于此,一位云计算行业的专业人士分析指出,ChatGPT进而带动了Cloud Financial Management云财务管理的发展,也就是现在业内热聊的FinOps,这是“Finance”和“DevOps”的综合体,强调运维过程中的成本管理和资源优化。但FinOps要实现更智能的目的,也需要背后算力的强大支撑。 业内人士笑言,什么是人工智能?顾名思义,有多少人工就有多少智能。智能不是凭空诞生,需要凭借深度学习算法对大数据进行“千锤百炼”,而大型语言模型(Large Language Models,LLMs)训练的过程必须依靠强大算力的支撑。在看到ChatGPT被热炒的同时,已经入局的相关科技公司所耗费算力也在不断狂飙。 在清楚ChatGPT背后的算力和经济账之前,需要了解一下大型语言模型(LLMs)是什么?目前业界对大型语言模型(LLMs)有着明确的定义,凭借深度学习算法进行训练,通过大量语料库数据来学习文本的概率分布和语法结构,并自动生成大量与语料库类似的高质量新文本,持续的训练可以提高生成质量。目前大型语言模型(LLMs)已经可以实现如互动问答、文本识别、文本分类、文本生成、代码生成等应用。但是大型语言模型(LLMs)目前无法识别不真实的语料数据。从而在采用正确语料数据过程中,也激发了业界相关数据标准公司的发展。 涉及LLMs的经典模型如BERT、GPT-3、Megatron-Turing NLG、GPT-4等。大型语言模型(LLMs)往往在大数据量的大规模数据集上进行训练,如GPT-3就有约1750亿个参数,在570千兆字节的文本上进行训练。而发展到OpenAI在2023年3月最新推出的GPT-4,标志着大型多模态AI开始崛起,业内之前有人预估GPT-4会拥有超过1万亿个参数。虽然OpenAI并未公布GPT-4的具体参数,但是据DeepMind研究发现,GPT-4将比GPT-3略大,达到计算最优所需的训练参数将有5万亿个。 实际上,十分惊人的大模型训练,对芯片的浮点计算能力要求超高。当前,ChatGPT采用的就是GPT-3大型语言模型(LLMs)进行训练,进行一次GPT-3训练需要总算力消耗约为3640PF-days,相当于每秒计算一千万亿次,需要算将近10年时间。这将意味着需要数亿美元投资数个大规模数据中心,每个数据中心算力达到500P,才能支撑得住。来自DeepMind的分析显示,为了最小化训练损失,训练GPT-4所需FLOP每秒浮点运算次数将是GPT-3的10-20倍。 从成本上来看,据Lambda Labs首席科学官Chuan li介绍,参数有1750亿个的GPT-3单次训练成本预计达到数百万美元。对照DeepMind的研究来看,单次训练GPT-4预估达到千万级美元的成本。 据SimilarWeb数据,2023年1月ChatGPT官网总访问量为6.16亿次;据《Fortune》杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。ChatGPT训练基于针对GPT-3.5模型进行,基本参数自然不会比GPT-3模型少。假设单位算力成本固定,ChatGPT单月运营所需算力估算约4874.4PFlop/s-day,单月运营对应成本将达到数百万美元。 需要指出的是,为了支撑GPT-3、GPT-3.5、GPT-4的大模型训练,OpenAI采用上万颗英伟达高端A100 GPU打造了一台特别的超级计算机,其基础设施成本就高达数亿美元。 像这样稍微算一算ChatGPT背后所需算力与经济账,巨头玩家“井喷式”投入令人无不惊讶。现在看来,ChatGPT基于大型语言模型(LLMs)训练和推理的前期发展,恐怕只能由少数几个全球科技巨头玩家所主导了。 然而,无论是针对ChatGPT进行怎样的训练,任何“淘金”入局者必然都有一个相同的刚需,希望支撑训练平台的GPU算力的效率更高成本更低,这关乎着任何一家入局者的前期投入与研究回报。 那么,谁来为ChatGPT“淘金”入局者提供更好的GPU加持工具呢?值得深思。 02 「从巨头玩家到垂直行业应用」 未来模型变小才能更有机会 但是,面向垂直行业“淘金”,这样的ChatGPT主流玩家应该不是目前在ChatGPT上投入巨资的微软、谷歌等科技大佬,毕竟他们热衷的还是搜索引擎等大应用的大模型训练。当然,国内也有百度、腾讯、阿里、字节跳动、京东、360、科大讯飞等知名科技企业相继参与了进来,但这些科技公司更多聚焦在自身现有业务体系上做ChatGPT加持,开始热心ChatGPT垂直行业布局的还是比较少。 可见,专注ChatGPT垂直行业发展的主角,应当还是那些拥有强大集成能力的软件开发商。 “下一步,一旦ChatGPT聚焦在垂直行业领域发展,走向千行百业应用,必然会趋使模型变小。”趋动科技(VirtAI Tech)CEO王鲲与业内不少专家持有同样的观点。 更进一步分析来看,ChatGPT的“行业化”才可能更好地实现商业化。或许有人也会有疑问:ChatGPT走向垂直行业领域,为什么会趋使大模型小型化?从大模型到小模型,其中有四大影响,对ChatGPT行业普及十分有利。 一是,降低训练门槛,降低高算力高投入,让更多公司可以参与进来。如前文所述,对于GPT-3、GPT-3.5、GPT-4等大模型训练,必须有着超乎常态的强大算力支撑,以及巨大的成本投入,这对于垂直行业企业想要借助ChatGPT聊天机器人技术做应用创新带来很大的挑战。唯有降低门槛,才有可能实现后续的ChatGPT行业化的普及。 二是,聚焦专业领域,利于提高数据集质量,加速ChatGPT训练品质。在数据标注正确的前提下,高质量数据集决定聊天机器人品质,数据集越大ChatGPT训练的准确度越高。据OpenAI表示,最新发布的新一代多模态模型GPT-4比GPT-3.5参数更多、数据集更大,在安全性和精确性上实现巨大的提升,在受限制请求做出回应的可能性上,低82%;在编造内容的可能性上,低60%。 像微软与谷歌等科技巨头,想要做需要全行业聊天机器人,必然就得立足超大规模、覆盖所有领域的数据集进行训练,为了能保障数据的质量,又必须通过清洗与标准来强化数据的真实性、准确性、完整性与时效性。为此,做好数据标注也成为实现更好训练结果的关键一环,据美国《时代周刊》资料显示,针对ChatGPT,OpenAI与外包公司合作雇佣了大量人员做数据标注服务。即便已经拥有了大规模的数据集,但要满足细分行业的更多需求,ChatGPT目前可以实现的效果还是鞭长莫及。 一旦推动ChatGPT进入垂直化细分行业如医疗、银行、证券、交通等,聚焦某个垂直行业的数据集相对全行业全社会而言要小得多。小而精,小而专。行业越是聚焦,越是利于提高数据集质量,实现ChatGPT训练品质的飞跃提升。 三是,更容易将ChatGPT与垂直行业需求结合,发挥出行业应用价值。植根不同行业的应用需求,构建比较独立、逻辑清晰、数据准确的行业语料数据库,促进ChatGPT训练获得更好结果。更准确的ChatGPT训练,也会更快融入到垂直行业。垂直行业小模型、专业领域数据集缩小了企业的训练范围与强度,降低整体训练成本,从而带动ChatGPT走向to B企业级化。到那时才是ChatGPT的商业化发展阶段,从而带来百家争鸣的产业ChatGPT。 四是,促进ChatGPT云化,打造云端ChatGPT模型与工具集,公有云广泛的创新通路将加速ChatGPT普及。比如亚马逊云科技正在携手相关技术公司Hugging Face打造类似ChatGPT模型的Bloom,同时也与Stability AI合作构建类似OpenAI旗下Dall-E的图像工具,这些模型与工具都将会基于公有云发布。 当然,针对OpenAI公司有着数亿美元投资的微软,在其Azure公有云服务平台上率先推出了OpenAI服务,随后又将ChatGPT技术扩展到Power Platform上,助力开发者实现低代码或无代码开发。诸如此类,后续将会有更多公有云厂商将ChatGPT与公有云结合,或者有更多类似ChatGPT的软件开发商与公有云合作,加速聊天机器人相关技术云化的进程,也将进一步扩展ChatGPT的普及度。这样不仅可以影响C端个人用户,也可以影响B端企业用户,并为ChatGPT应用优化带来敏捷的有效途径。...



