ChatGPT：科技巨头时代的iPhone？开启认知大门还是隐藏风险？

文章主题：ChatGPT, 科技未来, 商业化可能性

ChatGPT背后的技术思考，AI带来的商业革命还有多久？

🌟ChatGPT🔥再次点燃科技幻想，引领全球热议🔥：一款卓越的自然语言处理神器，以文本生成为核心，颠覆性地重塑了交流方式。它不仅成为新闻焦点，更是探索AI商业化潜力的里程碑，昭示着未来科技对商业世界的深刻影响🔍💪。无论在创新思维还是实际应用上，ChatGPT都展现出强大的引领力，让我们期待更多可能✨🌍

🎉🚀技术新纪元已然开启！随着云计算与AI的深度融合，我们正站在一个潜在的技术转折点上。就像苹果的iPhone对通信行业的影响一样，ChatGPT无疑正在引领人工智能领域的一场革命。黄仁勋CEO的这番言论，无疑是对此趋势的深度认可和前瞻性展望。🚀🔍未来，科技将如何塑造我们的生活？让我们拭目以待，共同探索这个令人兴奋又充满挑战的时代！🏆

🚀🔥OpenAI创新热潮持续高涨！👀每日数十新品涌现，探索未来之路已开启！🔥🔥最新GPT-4迭代，如海啸般席卷论坛Reddit，引领潮流风暴！🚀💻在这个技术与梦想交汇的平台上，无数项目正寻求突破，OpenAI的力量可见一斑。🌍✨让我们一起见证这股创新洪流如何塑造未来的无限可能！🏆💡

🌟ChatGPT背后的革新力量，揭示了科技未来的新篇章吗？🚀OpenAI引领的商业革命，会在哪个前沿领域率先开花结果？🔍中山大学的智慧之光，由林倞教授——拓元智慧创始人，为我们照亮了这一探索路径。💡他坚信，ChatGPT并非单纯的技术颠覆者，而是以大众为中心，开启认知新纪元的大门钥匙。ChatGPT的崛起，无疑在人工智能领域掀起了巨浪，它背后的多模态认知AI技术，正逐步打破传统边界，引领一场知识传播与理解的革命。🔍我们期待，这样的技术能加速商业场景的革新，让创新触手可及，为社会带来实实在在的价值。对于OpenAI的商业化前景，林教授的观点提供了独特的视角：未来可能在教育、娱乐、甚至是专业服务等领域看到它的身影。📚🎨音乐创作、法律咨询，这些看似遥远的领域，都可能因为ChatGPT的出现而迎来变革。总的来说，ChatGPT带来的不仅是技术的进步，更是一场认知革命的序幕。我们期待它如何引领新的商业格局，为我们的生活带来更多便利与可能性。🌟

打开凤凰新闻，查看更多高清图片

中山大学教授、拓元智慧创始人林倞

一.ChatGPT，浪潮如何兴起

🌟ChatGPT的出现，无疑是科技领域的又一里程碑，其影响力堪比互联网早期的革新。💡比尔·盖茨的这番话，背后可能隐藏着微软与OpenAI微妙的合作关系，但不可否认的是，它确实引发了全球范围内的广泛关注和热议。🌐互联网世界长久以来的平静，被ChatGPT这一创新打破了，掀起了一场前所未有的全民热潮。🔥

🌟了解了！👋这里是你需要改写后的文章内容：🔍探索技术革新：🔥GPT，Transformers的语言魔术棒！💡这款创新科技背后的缩写，GPT，是生成式预训练Transformer的简称，它以独特的方式定义了自然语言处理的新高度。🚀通过层层变换器，GPT预测每个词的潜在序列，从海量文本中汲取语言规律，生成流畅、连贯的文本。从最初的GPT-1到如今的GPT-3系列，技术的进步犹如升级版的智能引擎，不断推动着语言理解和生成能力的飞跃。🚀ChatGPT，则是基于这强大技术平台的最新杰作——GPT3.5架构的对话AI应用，引领了人机交互的新纪元。SEO优化提示：使用关键词如”自然语言处理模型”、”变换器”、”GPT-3″、”ChatGPT”和”对话AI”。记得保持内容相关且信息丰富哦！😊

简单叙述GPT发展路径的技术特点，GPT-3直接带火了“提示学习”这一技术范式（prompt），而InstructGPT、ChatGPT这类基于GPT-3.5的模型特点，则是结合监督学习与强化学习，加入了人类反馈强化学习，将人类期待的结果反馈给模型，后者额外增加了微调的安全机制。

真正引爆大众关注的技术内核，是从GPT-3到GPT-3.5的演化，核心就在于引入了training on code及引导性微调。人类所打造的代码，无论是Java抑或Python，都存在强逻辑性与一致性。AI模型需要在代码上预训练，进行逻辑能力的强化。

这一过程中，升级的重点，一是用code代码引入人类定义好的task任务，并提供更为符合人机对话需求的训练，最终有了ChatGPT的实际应用。

不久前，GPT-4.0的出现，更是让这股浪潮愈发汹涌。

二.GPT-4.0，未来的一块基石

理解ChatGPT，可以从其训练步骤开始。从收集示范数据、训练监督政策到收集比较数据、训练奖励模型，进行策略优化，三个核心步骤的不断训练之下，模型迭代后所产出的文本自然越来越精准。

具体来说，第一步，利用人类的标注数据，对GPT进行有监督训练，主要迭代内容为模型中的输出策略部分（即SFT模型）。第二步，则是依据人类的打分标准训练出一个奖励模型RM。第三步，迭代式的更新奖励模型RM与策略模型SFT，使得模型输出质量的刻画愈发精准，最终让输出信息愈发符合人类的认知。

“不要抱有太大的期待。”林倞个人的观点是，因为应急能力问题的存在，目前ChatGPT还不是无所不能。必须认识到它的优缺点都十分鲜明。

在真实性与逻辑性上无法保证确定性，甚至同样提示词多次提问所收获的答案都存在差异，存在一本正经的胡说八道情况。道德与伦理上的风险问题也存在隐患。

除此以外，ChatGPT所面临的一大问题，是如何持续性更新领域知识。投喂型而非自主型的训练方式，新领域内容的更新，取决于示范数据的更新。在数据安全与部署成本的双维压力下，可持续性依旧存疑。

“大部分人无需担心工作会被取代。”林倞认为，ChatGPT的本质依旧是被造出来的“轮子”，是对人类生产效率的提升，在目前可预见的应用中，其对各类重复工作的效率提升作用巨大。

而GPT-4的出现，又为生成式预训练的可能性，添加了一份方向性的确定。其最为人乐道的，是对于视频、图片的理解，或者说对于用户意图理解的延伸。在应用层的热点，就是已经成为一种风尚的AI作画。

Runway AI、Midjourney、Novel AI的百花齐放，背后是DDPM、Stable Diffusion（开源）等文本图像、文本视频生成等技术的不断演进。为此，林倞举例了几种算法技术核心概念，以及演变方向。

以Diffusion Model为例。其算法理论是在信息推理时给定一个噪音信号作为输入，以训练模型估计高斯噪声，以前者减去后者，循环重复直至恢复原始信号，理论上可以实现语音、图像、超分辨率等连续信号的生成。

从模型类型区分，Diffusion Model属于一种自回归模型，需要反复迭代计算，训练和推理成本高昂。而Latent Diffusion model（即LDM）在此基础上做了迭代，把Diffusion过程改为在Latent Space中进行在计算复杂程度实现优化，最终实现可以生成高分辨率图像。

LDM的价值在于，提出了以cross-attention的方法实现多模态训练，让class-condition、text-to-image、layout-to-image等引导图像生成成为现实。上述开源的Stable Diffusion模型既是基于LDM算法训练所得。

三.未来，是否已经展开？

在AIGC这一领域，一种行业性的方向和难题在于，如何把现实中的一些新概念，或者说很难形容的物体，引入到生成过程中。技术语言将之称呼为Example based Generation。

Nvidia以训练一个新prompt从而适应新概念的方式，打造了Textual Inversion；Google则以Finetune LDM算法寻找原本模型中与新概念最相关的embedding，将之命名为DreamBooth。

而林倞与拓元智慧在这方面，有着探索与突破。其与中山大学联合推出的DreamAritist，以单个样例学习概念的方式解体，并且提出了Positive-negative prompt-tunning（正负双向提示）方法。

ChatGPT：科技巨头时代的iPhone？开启认知大门还是隐藏风险？

DreamAritist示例

Example based Generation所解决的问题，是将现实样例中抽象出的概念引入到生成阶段，让产出的内容从机械式的重复到创意的实现。

图像之外，视频内容生成技术，也已经有了实践。Tune-A-Video可以通过一个视频片段作为模型训练的样本，以Prompt控制生成类似的视频，再新增时空维度的cross-attention后，所生成的视频愈发丝滑

业内先行的Gen-1到Gen-2，就提出了基于文本描述或图像结构引导的隐视频扩散模型进行视频生成，且借助引导信息进行视频编辑。通过图像结构信息和内容本身，引入采样通道堆叠形式。

AIGC的另一关键，是Controllable Generation（可控生成）。其核心技术ControlNet是一种端到端的神经网络架构，以控制Stable Diffusion这类大型图像扩散模型的方式，学习特定任务，比如输入草稿后输出可控的高质量图像。

技术理论在于，将可训练和和锁定的神经网络块与“零卷积”的卷积层链接。零卷积的特点是，不会为深度特征添加新的噪声，相较从头开始训练的卷积层而言，训练速度与微调扩散模型一样迅速。

而基于ControlNet的AI作图实践，已经非常多。比如素描草稿图像形成、边缘检测图像形成等。但AI作图这类的AIGC技术，依旧存在局限性。内容的可控性依旧是无法忽视的大问题，视频与3D元素的生成还需要算法与底层技术的更新，通用视觉大模型、提示/适配的技术难度与复杂度都极高。最为关键的是，商业模式还需要验证。

要了解目前的AIGC技术，就必须看到目前预训练大模型的局限性。理想中的模型，应该是具备强解释性、可泛化推广的“白盒”模型，而非尚未能解释、只能获得结果的“黑盒”。

四.拓元智慧的商业实践

拓元智慧的出现，本身是林倞为首的认知AI技术领域知名专家团队，共同的一次商业尝试。拓元智慧（X-Era AI）由顶尖AI技术团队创立，致力于运用自研多模态大模型、认知推理、因果模型等前沿AI技术，为用户提供可控内容生成及虚实交互解决方案。依托林倞教授创立领衔的中山大学人机物智能融合实验室(HCP Lab，在近期公布的CVPR2023入选15篇论文，核心成员还包含梁小丹、王可泽、李冠彬等知名AI青年科学家)，拓元智慧持续创新，打通技术及业务闭环，目前已在IP数字分身、AI协同内容创作、企业数智服务等领域形成标化产品，服务知名客户百余家。

多模态认知AI的技术翻译，可以理解为以模拟人脑双通道理论为引导，所打造的计算模式、内容生成、虚实链接与交互的操作系统。使得AI同时具备人脑快思维与慢思维的“思考”能力。

作为操作系统，多模态认知AI引擎引入因果模型与心智模型，打造低成本多模态大模型为核心的AI引擎。这与主流AI商业化方案形成了差异性价值。目前常见的方案中，基本都以大数据、大模型与超级算力来解决感知层问题，成本高、场景数据缺失等问题普遍。而拓元智慧的解决方案，以自研技术核心框架，实现了灵活性与低成本的综合落地。

ChatGPT：科技巨头时代的iPhone？开启认知大门还是隐藏风险？

多模态认知AI平台示意图

其技术积累，可以分为三方面：

● 其一，低成本的大模型。可以实现小样本学习又可私有化部署。针对特定垂直场景，动态配置来满足客户成本、数据安全可控和能力灵活可扩展的核心诉求。

● 其二，大模型+因果图模型。可以打开想象与创造的空间。在大模型基础上引进因果推理模型和生成式算法，支撑可控、可泛化的生成效果。比如文案文本的一键裂变。又比如被林倞称为数字分身的“数智人”，完全可以实现人物、场景的自动编辑与创造。

● 其三，心智模型。提供个性化的交互与陪伴，在因果图模型基础上，赋予及其个性、价值观演进的能力，所产出的内容更具有灵性与温度。

技术的积累，外溢到了实际产品。拓元智慧的产品体系中，一个定位是能够革新内容创作形态的新一代AIGC平台，通过大模型创新可控生成式模型，融合因果推断与价值反馈激励，来拓展人类智慧与能力的边界。

其中已经落地的应用，是“元分身”。内容产业中，人物的视频拍摄与制作成本过高，是普遍痛点。结合AIGC的技术底座，拓元智慧打造了“元分身”作为第一款商用产品，以AI驱动真人数字分身，来实现对真人实拍的替代，实现视频生成优化、专家型交互等等，颠覆传统内容行业的效能瓶颈。

一个最直接的应用，是元分身可以支持使用标记剧本编导，让数智人演绎视频。无论是角色与镜头的转化，还是与语义关联的动作，甚至符合情景的情绪演绎，已经完全可以实现。而目前作为ChatGPT被热议话题的文案写作，拓元智慧的AI写手也能实现基于热点文案分析的裂变重构，完成用语、文法、文风的改写，一键生成裂变内容，可控又能全覆场景。

“未来或许就是元创作时代。”林倞表示，就目前AIGC技术的发展，多模态内容创作与编辑方式，已经发生了颠覆式变化。“我们在做的，是将技术底座开放给更多人，来构建生态。”

拓宽视野、引发思考、讨论碰撞、激发灵感。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

OpenAI 创作山大论文

相关文章