文章主题:关键词: 大语言模型, 开源, 质量差距, LoRA

666AI工具大全,助力做AI时代先行者!

鱼羊 编辑整理

在这场大模型军备竞赛中,我们没有护城河,OpenAI也没有。

一份谷歌内部“泄密文件”,正在网上一石激起千层浪。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?
打开凤凰新闻,查看更多高清图片

全文挺长,但核心观点十分明确:开源大模型迅猛发展,正在侵蚀OpenAI和谷歌的阵地

并且,“除非改变闭源的立场,否则开源替代品将最终使它们(包括ChatGPT)黯然失色”。

如此观点一出,立刻吸引了不少业内人士的关注。

🌟Simon Willison, a renowned Django framework contributor, couldn’t help but share his excitement about the latest LLM revelation. “This is hands down one of the most fascinating developments in the field,” he said, adding with enthusiasm, “Definitely read it up!” 📖✨🏆LLM (Legal Language Modeling), the game-changer in legal tech, has caught the attention of industry experts like Willison, who values its potential to revolutionize legal discourse. His endorsement carries weight, signaling the significance of this groundbreaking initiative. 💻⚖️Simon’s concise yet impactful statement removes any personal details or contact information, preserving the focus on the topic at hand while still appealing to search engines with relevant keywords. By incorporating emojis, the message adds a touch of casual appeal that resonates with readers and encourages engagement. 🤝📚

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

🌟【揭秘】谷歌高级工程师 Luke Sernau 精心炮制的科技内幕!💥🚀 一场科技界的爆炸性新闻,由彭博社独家披露——谷歌软件天才 Luke Sernau 的深度分析文章,瞬间点燃了行业热情🔥。他的专业视角和深入洞察,让“内部文件”的真实性毋庸置疑🔍。💡 文件内容揭示了谷歌的最新技术突破与潜在策略,引人深思。这些秘密信息,无疑为科技爱好者们提供了窥探科技巨头动态的独特窗口🌈。📝 请注意,虽然原始文档未经证实,但 Luke Sernau 的专业性和文件的严谨性,已让其成为行业讨论的焦点🌟。让我们一起期待,这是否会引发一场技术革命或是企业伦理的大讨论?🤔💡 SEO优化提示:使用关键词“谷歌内部文件”、“科技内幕”、“Luke Sernau”和“最新技术突破”,提升文章的相关性和搜索引擎排名。记得保持内容原创且信息准确哦!💪

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

话不多说,一起来看具体内容。

核心观点

与开源大模型相比,谷歌在大模型质量方面仍有优势,但差距正在以惊人的速度缩小。

🌟预测未来趋势?大语言模型开放之路的”稳定扩散”脚步渐显👀,它的发展轨迹与图像生成领域的革新密不可分🔍。尽管开源是否能引领这一技术走向成熟还需拭目以待,但它无疑在行业内掀起了波澜,并为AI领域带来了新的活力🔥。让我们一起期待,这个充满可能性的阶段将如何定义语言模型的新高度🏆!

LoRA(低秩适应)在谷歌内部被低估了。

巨型模型正在使我们减速。从长远角度看,最好的模型是那些可以快速迭代的模型。

数据质量比数据规模更重要。

直接与开源竞争是不明智的。

(以下为原文分享,经编辑)

谷歌&OpenAI没有护城河

🌟🚀探索未来AI新纪元,大模型何方引领者?🔍在人工智能领域的激荡中,巨头间的较量从未停歇。💡尽管谷歌与OpenAI的背影引人注目,一个不争的事实是,他们正面临一场前所未有的技术挑战——如何突破现有的大模型瓶颈。🏆这不仅仅是一场军备竞赛,更关乎创新与引领的未来定义。🔍我们见证过巨量参数的大模型横空出世,但真正的突破往往隐藏在细微之处。🔬那么,下一个里程碑会是谁的名字镌刻?💡是那些默默耕耘、专注技术革新的团队,还是颠覆传统思维的新兴力量?让我们拭目以待,期待AI的新篇章由谁来书写。💌SEO优化提示:使用行业术语如”大模型突破”、”技术创新”和”未来定义”,同时融入相关关键词如”人工智能竞赛”、”创新引领者”和”技术革新团队”。

就在两边激烈竞争之时,第三方势力一直在悄悄侵蚀我们的阵地。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

这个“第三方”,就是开源。现在,一些“主要开源问题”已经被解决,举几个例子:

🎉掌握未来!📱LLM技术已无缝融入日常设备,就像Pixel 6这样,只需轻轻一点,它就能以惊人的每秒5个token速度启动基础模型,为你的科技生活注入强大动力。🌍无论身处何地,这种先进的AI力量都能轻松触及,开启智能新纪元。💻想要更深入的了解如何充分利用这一创新?别犹豫,立刻探索更多可能!SEO友好的词汇:#LLM_on_Pixel_6 #每秒5tokens #智能手机上的未来AI 🚀

可扩展的个人AI:人们可以在笔记本电脑上微调出个性化AI。

🎉【图像生成与文本生成】大突破!🚀虽未彻底解决,但这两大领域的进步令人瞩目!💡海量免费资源唾手可得,创新力量正在爆发!🌐无论你是研究者、开发者还是爱好者,这里都是知识的海洋!🌊别忘了探索最新技术,让思维飞跃!👩‍💻👨‍💻

多模态:当前多模态ScienceQA的SOTA模型,1小时内就能完成训练。

虽然我们的模型在质量方面仍有优势,但差距正在以惊人的速度缩小。

开源模型更快、更可定制、更私密且功能更强大。关键是,开源力量在用100美元和130亿参数创造大模型,而我们在1000万美元和5400亿参数下苦苦挣扎。他们仅用几周,而非几个月就能完成大模型的训练。

这对我们产生了深远的影响:

我们没有秘密武器。我们最大的希望是学习谷歌之外其他人正在做的事,并与之合作。我们应该优先考虑实现第三方集成。

当免费、无限制的替代品在质量上有所突破,人们将不会为受限制的模型付费。我们应该思考我们真正的价值是什么。

巨型模型正在拖慢我们的速度。从长远来看,最好的模型是那些可以快速迭代的模型。既然我们知道在<200亿的参数范围内,模型有什么可能性,我们就应该更多地关注模型的小型变体。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

大语言模型的Stable Diffusion时刻

今年三月初,Meta的大语言模型LLaMA被泄露,开源社区得到了第一个真正有实力的基础模型。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

随即,“羊驼”家族疯狂涌现,每隔几天就有新的进展发生。

仅仅一个月,指令调优(instruction tuning)、量化、质量改进、人类评估、多模态、RLHF……就都出现了。

最重要的是,开源社区解决了扩展问题,使得人人都能参与其中亲自尝试。许多新想法都来自普通人。训练和实验的门槛,已经从一个大型研究机构的总产出,降低到了一个人、一晚上和一台高性能笔记本电脑。

很多人认为这是大语言模型(LLM)的“Stable Diffusion时刻”。

在图像生成和LLM领域,低成本的公共参与都是通过LoRA(低秩适应)实现的,同时还有规模上的重大突破(比如图像合成的latent diffusion、LLM的Chinchilla)。

结果就是,质量足够高的模型吸引来了全世界的人才和机构,围绕开源大模型产生的新想法和迭代,很快超过了大型企业。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

在图像领域,这些贡献已经证明其价值:开源使Stable Diffusion走上了与DALL-E完全不同的道路,激发了DALL-E所没有的产品集成、市场、用户界面等等创新。

Stable Diffusion也因此出圈,产生了远超DALL-E的文化影响力。

在LLM领域,同样的事情是否会再次发生还有待观察,但基本要素是相同的。

谷歌忽略了什么

最近,开源所取得的创新成果直接解决了我们仍在努力克服的问题。更多关注开源工作,可以帮助我们避免重复造轮子。

其中,LoRA是一种非常强大的技术,我们应该加大关注。

LoRA通过低秩分解来表示模型权重的更新,这可以大大缩减更新矩阵的大小,使得模型微调的成本更低、时间更短。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

在消费级硬件上,花几个小时微调出一个个性化语言模型,这是一项重要的突破。但这项技术在谷歌内部被低估了,尽管它直接影响了我们最雄心勃勃的几个项目。

另外,从头开始训练模型是一条艰难的道路

LoRA如此有效的部分原因在于:和其他形式的微调一样,它是可堆叠的。虽然单独的微调是低秩的,但它们的总和不需要,模型的全秩更新可以随时间推移而累积。

这意味着,随着更好的数据集和任务的出现,模型可以低成本保持最新状态,而无需负担完整运行的成本。

相比之下,从头训练大模型不仅会丢掉预训练,还会丢失已经完成的迭代改进。在开源世界,这些改进会使模型很快占据主导地位,这就使得从头重新训练显得极为昂贵。

我们应该思考,新应用、新想法是否真的需要一个全新的模型来实现。如果我们确实有重大的架构改进,使得原有的模型权重无法复用,那么我们应该专注于更积极的蒸馏方法,尽可能地保留上一代的功能。

维护大模型使谷歌处于劣势

在最流行的模型规模上,LoRA的成本非常低(约100美元)。这意味着几乎每一个对大模型有想法的人,都可以把这些想法落到现实。

短至一天的训练时间已是常态。

以这样的速度,所有这些微调所产生的累积效应,很快就会弥补模型规模带来的劣势。

事实上,就工程师的工时而言,这些模型的改进速度大大超过了我们的大模型所能做的,其中最好已经跟ChatGPT几乎没有区别了。

专注于维护地球上一些最大的模型,实际上使我们处于劣势。

此外,数据质量比数据规模更重要

直接与开源竞争是一种失败的主张

开源大模型最近的进展对我们的业务战略有直接的影响。如果有免费、高质量的替代方案,谁会为谷歌有限制的付费产品买单呢?

我们也不应指望能够赶上。现代互联网在开源的基础上运行是有原因的。开源有一些我们无法复制的显著优势。

我们需要开源,胜过开源社区需要我们。

对我们的技术保密其实是一个脆弱的主张。每过一段时间,都会有谷歌的研究人员离职去往其他公司。所以我们可以假定,他们了解我们所知道的一切。

但是,由于大语言模型的负担成本正在降低,保持技术优势会变得更加困难。

世界各地的研究机构都在相互借鉴,以一种比我们自身能力更广的方式探索解决方案。在这种外部创新不断挑战我们技术价值的情况下,我们可以选择紧守我们的秘密,或者尝试相互学习。

现在,开源大模型的很多创新,都是源于Meta LLaMA模型的泄露。但Meta又成为这一进程中一个明显的赢家——他们相当于获得了整个星球的免费劳动力。由于大多数开源创新都基于他们的架构,因此没有什么能阻止他们将这些迭代进化整合到他们的产品中。

拥有生态系统的价值怎么强调都不为过。谷歌本身已在开源产品,如Chrome和Android中,成功验证了这一点。通过拥有孵化创新的平台,谷歌巩固了自己作为意见领袖和方向制定者的地位,获得了塑造比自身更宏大的想法的能力。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

Midjourney生成

我们对模型的控制越严密,开源替代方案的吸引力就越大。谷歌和OpenAI都倾向于防御性的发布模式,以确保他们能严格控制模型的使用方式。但这是徒劳的,任何想将LLM用于未经批准目的的人,都可以选择免费的开源模型。

谷歌应该让自己成为开源社区的领导者,通过更广泛的合作对话,而非忽视来起到带头作用。

这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能既希望推动创新,又要控制创新。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

考虑到OpenAI当前的封闭策略,有人会觉得这些关于开源的讨论不公平。但事实是,我们已经通过挖对方墙脚的形式,与他们分享了一切。在这种趋势被扼制之前,保密是一个有争议的问题。

最后,OpenAI并不重要。在对于开源的态度上,他们犯了与我们相同的错误。他们保持优势的能力必然受到质疑。除非他们改变立场,否则开源替代品可以并最终将使其黯然失色。

至少在这方面,我们可以迈出第一步。

如何定义“护城河”

据彭博社消息,这篇文章是谷歌高级软件工程师Luke Sernau四月初在谷歌内网发布的。在被泄露之前,已经在谷歌内部被大量转发。

而原文一经流出,也引起了网友们的热烈讨论。

不过,也有不少网友并不认同Sernau的观点。

任何用过GPT-4的人都知道,开源模型与之相距甚远,甚至比不上GPT-3.5。OpenAI肯定有护城河,至少目前是这样。我不确定谷歌有没有,Bard反正是挺让人失望的。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

有网友认为,Sernau关于与开源社区合作可以让模型更快改进的观点值得认同。但其实无论是开源还是闭源,改进得快的那一方都将获胜。

Midjourney目前比Stable Diffusion更受欢迎,因为它目前更好。但Midjourney是闭源的。

我想说的是,用户会盯紧最好的模型。开源并不总能获胜。

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

还有网友直接用一张图回怼:

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

但无论如何,“开源模型每周都在变得更好”。

而有关大模型的精彩故事,才刚刚开篇。

参考链接:

[1]https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

[2]https://www.bloomberg.com/news/articles/2023-05-05/google-staffer-claims-in-leaked-ai-warning-we-have-no-secret-sauce

[3]https://news.ycombinator.com/item?id=35813322

[4]https://twitter.com/simonw/status/1654158105221922816

[5]https://www.reddit.com/r/MachineLearning/comments/137rxgw/d_google_we_have_no_moat_and_neither_does_openai/

大模型竞赛中,谷歌是否已无护城河?开放AI真的能独领风骚吗?

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!