探索多模态未来！JinaAI领航生成式AI浪潮，ChatGPT推动C端革命？

文章主题：肖涵, Jina AI, 多模态数据平台, 人工智能

· 「名人堂」Jina AI 创始人兼 CEO ·

🌟【AI领航者】肖涵🌟——创新引擎，技术驱动者🌟曾在腾讯AI Lab砥砺前行，2018-220年，肖涵以深度学习搜索项目研发为核心，助力腾讯开源办公室，推动技术创新与文化共享。深厚的行业背景，2019年他作为LF基金会董事，不仅强化内部协同，还积极拓展国际视野，引领腾讯加入TODO基金会，彰显其在全球开源领域的影响力。曾任德国Zalando的高级研究员，从2014年至18，肖涵在学术与实践双重战场上熠熠生辉。这段期间，他在慕尼黑工业大学取得计算机博士学位，为人工智能领域贡献了独到见解。他是德中AI协会的创始人和主席，Mindspore技术委员会的核心成员，持续引领行业潮流。他的故事，是科技与创新的生动诠释，每一项成就都闪耀着智慧的光芒。🌟

🌟🚀Jina AI，引领未来数据平台🔥🔍专注于打造人人触手可及的多模态技术巨头，利用云原生力量、MLOps与LMOps革新，让企业与开发者尽享卓越搜索和生成体验🌈💪。公司已赢得来自GGV、云启资本、SAP等国际知名投资机构的3750万美元青睐，彰显其在AI领域的强大实力和市场认可度🌟🏆。自2020年成立以来，Jina AI稳步前行，连续两年荣登CB Insights全球Al百强榜单，成为创新与速度的代名词🌈2020 Forbes DACH AI 30榜上赫然闪耀，展现出其在DACH地区乃至全球AI领域的领导地位🌟🏆。欲了解更多关于这个数据平台革命者的故事，敬请关注我们，一起探索人工智能的新篇章✨🚀

🌟[Jina AI, 工程师文化的引领者 🇪🇩💡]🌟驱动创新的工程师精神，我们深信开源的力量。总部坐落在柏林的全球科技中心，Jina Al 拥抱多元国际视野，足迹遍布北美硅谷与亚洲硅谷的心脏——中国和美国。🚀由来自微软、谷歌、腾讯、Adobe等业界巨头的精英组成，我们的团队犹如一个技术联合国，跨越10余个国家的智慧在这里交融。🌍致力于为全球用户提供卓越服务，我们专注于提升技术实力，而不只是推销产品。SEO优化的语言，让每一个想法都能触及更广阔的市场。🌐欲了解更多关于工程师文化与开源理念的深度探索，欢迎访问我们的官方网站，那里有更多专业内容等待您的发现！🔗

问题 1：生成式、感知式、决策式的AI的核心关系？未来AI的发展趋势？

🌟认知升级！AI世界大揭秘🔍——从决策到生成，探索AI范式动态🚀💡AI领域并非仅限于决策式与感知式，创新的生成式模型正引领潮流！GAN（Deepfake）的诞生虽曾短暂冲击，但它激发了行业潜能，疫情后的复苏更显其生命力。🔥🌈2010年，国内互联网巨头悄然布局，推荐系统、搜索优化等基础应用应运而生，垃圾邮件分类也见证了技术的进步。那时起，AI的脚步已稳健前行。👣🔍2018年的GAN革命，虽一度引发关注，但随着ChatGPT的横空出世，语言生成与多模态模型的爆炸式增长预示着未来一年将充满惊喜。📱💻📚今年，无论是C端用户还是B端开发者，都将迎来AI技术的新品盛宴。二次开发平台的崛起，学术圈的推动，以及OpenAI的持续努力，无不昭示着生成式AI的强劲势头和广阔前景。📈🔍🚀让我们期待这场科技革命如何重塑世界，生成式AI定会以更智能、更具包容性的姿态引领未来！🌟

🌟认知升级！🚀决策型AI，以数据为王，智能分类与推荐的全能者！🌍它悄然渗透于各行各业，自2010年起，就在🔥语音识别、👀人脸识别等前沿科技中大放异彩，至今仍是技术革新的领军力量。🔍深度挖掘信息海洋，过滤繁杂，提取关键，让决策更精准，效率更高！🌟SEO优化，提升你的内容触达率，引领未来智能浪潮！🏆

🌟生成式AI革命性地突破传统，它不仅能文字生图、创作音乐和视频，自2020年以来，这一领域正以前所未有的速度崭露头角。👀早期的2014年，这项技术还相当稚嫩，仅能产出16×16像素的黑白简版照片；然而，仅仅过了四年，到2018年，它就开始展现出显著的进步。🚀OpenAI在2020年的创新突破，推出了DALL·E 1.0，开启了文本到图像的强大转换时代；紧随其后，2021年的DALL·E 2.0更进一步，实现了跨模态的图文共生，让想象无边界。💰稳定性AI在2022年凭借stable Diffusion的发布，获得了1亿美元的投资，成为行业焦点；同年11月30日，ChatGPT的横空出世，更是对学术论文产生了深远影响，一些博士论文因过于简单直接失去了价值。🔥SEO优化后的表达：🎨生成式AI引领创新浪潮，文字艺术化不再受限！自2020年代起，它以惊人的速度革新了创作领域。💻早期的DALL·E（2014年起步，黑白简照）虽基础，但2018年的飞跃标志着技术的显著成长。🚀OpenAI的DALL·E 1.0开启图文转化新篇章，DALL·E 2.0的跨模态进化则将想象推向极致。💰稳定性AI的亿万美元投资和stable Diffusion的闪耀，强化了这一领域的地位；ChatGPT的发布，对学术论文深度挑战，简单已不再适用。🔥

问题 2：单模态和多模态AI优劣势对比？多模态发展的核心驱动因素？

在2020年之前，AI的商业化主要依托于单模态实现，并且单模态的应用场景较多，单模态AI的输入和输出都是同一模态，如图片分类和人脸识别等。虽然 2020 年以前存在部分跨模态的应用(如语音识别等)，但大多数仍为单模态的应用。

然而，随着互联网数据类型和数据量不断丰富，从文本到视频的转变已经实现，越来越多的需求需要实现搜索、索引和生成数据，多模态发展的核心因素主要是数据和技术的不断发展。自从2014年的贝叶斯，到2015年深度学习逐渐成为主导，2016年TensorFlow推出并成为第一个大规模开发者使用的深度学习框架，其参数规模、计算能力和模型容量也在不断提升，这些因素都推动了多模态的发展。

问题 3：如何看待互联网头部公司与高校中大模型的优劣势？

国内的技术路线本身不会有较大的差异。大规模语言模型相当于一个数据库，问题在于如何有效地储存海量的数据，ChatGPT并未专门针对中国用户进行优化，其数据相对均衡。这对于汉语环境中的未来的商业化落地是一种利好，因为只需往模型中灌输中文，因此其质量可能更高。未来大厂推出产品时，其将会聚焦于仅中文，将大模型变为专项垂直领域的小模型。

大规模语言模型的特点是庞大。2023年“Reinforcement learning 强化学习”将成为遍地开花的技术，而“in-context learning (ICL)”上下文学习技术是机器学习中顶尖技术，当模型大到一定程度的时，模型自然而然地会具备一定的推理、新任务调教等技能；模型越大，该能力越强。

问题 4：当前国内AIGC相关企业的商业化模式相对模糊，如何看待其发展？

2022年stable Diffusion诞生后出现大量的AIGC企业。Jina AI 基于 ChatGPT 研发的一个具有批判性思维的 AI 辅助决策工具 Rationale.jina.ai。仅一个月 MAU 已达 10w，并且已有付费用户和稳定订阅。因此个人认为2023年To C将会有较快的发展。

AIGC领域的创业并非需要人数庞大的团队，对于汉语圈而言最大的障碍是否是能有一个稳定的高质量中文GPT，其将会激活一大批下游的产研。

问题 5：如何看待未来下游应用的广泛性？会从角度颠覆内容产出？

大规模语言模型是金子，而ChatGPT像铲子。ChatGPT能够将大模型技术直接应用于产品中，从而提升用户的生产效率。部分产品已经在准备商业化，个人认为第一个consumer product可以是类似Notion等。

用户关注ChatGPT能够为日常工作和生活中的痛点带来什么效果，然而目前 ChatGPT 的输出需要大量的前期沟通。如果能够确定好前期的 Prompt，则有望将 ChatGPT 逐渐推进产品化的方向。

这也就是为什么我们推出了一款用 AI 全面优化 Prompt 的新产品「最美提示词」，用魔法来打败魔法。当你输入提示词后，它就会输出优化后的「最美提示词」，并让你预览优化前后的模型输出。目前文本模型支持 ChatGPT、GPT 4、GPT 3 的提示词优化，还支持图像模型 Stable Diffusion、DALL·E 、Midjounery、Lexica 等等，Promptperfect 能够帮助你在各种大语言模型找到最好的提示词。

产品体验链接：promptperfect.jina.ai

问题 6：当前人们主动获取信息的主要途径是搜索，而 ChatGPT 可能使得问答更加高效精准。如何看待 ChatGPT 对于搜索的影响？在您看来，搜索的未来是什么？

我在12月15号写了一篇长文章，名称是《SEO已死，LLM永生》。

在讲搜索之前，先讲一下SEO产业。人们会为了提高网站的排名尽量去写文章，将文章中要推荐的产品尽量铺外链，写一些相关性文章，使得这些外链最后指向产品主页，这样用户在搜索某个关键词的时候，产品有非常大的机会能靠前显示。这基本上是现在搜索引擎的一些做法。通过分析用户的输入和每天爬取的网页，去判断其中的相关性，并判断整个网页的权重，对所指向的外链和内链综合给出排名。

ChatGPT 刚出现的时候，很多人觉得太方便了，原来做内容生成，需要自己去构建外链文章，需要自己写，或是雇人写，现在直接用 ChatGPT 生成。比如：我要推荐一个手机，就让 ChatGPT 总结出这部手机的十大优点，市场上的竞品，都可以几秒钟之内生成一段相对可读的文章。从搜索引擎的角度来讲，它区分不出来文章是人写的还是机器写的，反正都抓取过来，判断一下相关性，这中间存在一个信息差，SEO 的从业者就利用信息差去实现自动化。

但实际上 ChatGPT 最大的一个问题就在于：可以把它想象成一个数据库，它通过大规模的语言模型，将所有人类的知识，笔头上、书本上的一些知识存储起来，再以某种概率形式返还给你，所以它给出的结果就相当于数据库中的存储与读取，只不过它的数据库是一个概率性的数据库，并不是直接返回你一个确定性的结果，有可能是通过差值产生的。

基于这种原理，其实可以把 ChatGPT 想象成一个搜索引擎，它和搜索引擎有很多相似性：搜索引擎是将所有网上的数据去爬取，根据用户的输入去判断相关性，返回 top rank 的结果，比如排名前10、前 20。GPT 也是将所有的人类书写的东西索引起来，存储在几百亿的参数模型下，用户在输入时，它激活这些神经网络，把相应的数据返还给用户。从本身的原理上来讲，抽象地看，这两者大致是相同的。

为什么 ChatGPT 要比 Google 的用户体验更好？因为 ChatGPT 是以一种人机对话的形式来返还给用户，并且返还的时候，它不返前 20 的，就返还排名第一的，这时候的用户体感就非常好。在做搜索引擎时，可能要翻好几页、好几十页去找一个结果，ChatGPT 直接返还给你第一个结果，告诉你这个就是你想要的答案，所以又会节省非常多的时间。

这其中就引出一个问题：如果未来的搜索都是以 ChatGPT 的形式存在，这时候想做 SEO，该怎么做？SEO 通过不断地写文章、不断构建外链，能够让搜索引擎给出用户想要的排名，但 ChatGPT 可能会给出商家不想要的结果，这时候从商业上考量，未来大规模语言模型可能需要通过上下文学习、产生特定的输出。

问题 7：ChatGPT 未来创造超额收益是否是可预见性的？大概需要的时间？

是否能够把 ChatGPT 创造的东西进行变现。个人认为：第一，ChatGPT大规模语言模型永远不会有创造力；第二，基于差值产生的内容有一定的价值，能够取代很多人工输出的内容。但真正能够推动历史发展的东西，是不会创造出来的，仅会根据人类历史而不断地做平均，随后返回平均的结果。指望大规模语言模型带来真正的创造力是不可能的、

从某种意义上而言，ChatGPT的内容生产存在一定的局限性，若未来网络上的东西均为ChatGPT产出，势必对社会结构产生影响。

日常生活中的内容是能够被ChatGPT取代的，其涉及到内容变现，此时无需创作者，仅需进一步依托于ChatGPT进行降本即可，提升其边际收益。从现在开始，我们应学会如何同时接受人类产生的信息和机器产生的信息。

举报/反馈

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

中大创作博士论文

相关文章