文章主题:

666AI工具大全,助力做AI时代先行者!

羿阁 发自 凹非寺

量子位 | 公众号 QbitAI

2022年流行“文生图”模型,那2023年流行什么?

机器学习工程师Daniel Bourke的答案是:反过来!

这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

不仅是基础的“看图说话”功能,写情诗讲解剧情给图片中对象设计对话等等,这个AI都拿捏得稳稳的!

比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材做菜步骤

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。

最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

那么,BLIP-2神奇的地方还有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

在对人类神态的拿捏上,BLIP-2同样把握得非常准确。

✨当被提及图中男子为何如此表情时,BLIP-2给出了简洁的答案:👀他惊恐地望着那只疾速扑来的鸡,仿佛在与时间赛跑!💥

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话:

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

这不光理解能力满分,文学造诣也相当强啊!

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:

猫: 嘿,狗狗,我能骑在你背上吗?

狗: 当然,为什么不呢?

猫: 我已经厌倦了在雪地里行走。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着,每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练:

第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

🌟🚀科研新星BLIP-2大放异彩!🔥🔍经过严苛测试,这款先进的AI模型在四大领域——零样本图文创新、视觉推理难题、图片找文及字幕生成,均展现出卓越的效能。它以精准无误的技能,跨越图像与文本的鸿沟,每一项评估都揭示了其强大的学习和适应能力。🌍✨让科技的力量,为你的信息海洋导航!🌟联系方式:[隐藏]️别错过探索未来的机会!🚀

最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

🌟BLIP-2的表现亮眼!在零样本VQAv2的测试中,它超越了Flamingo 80B,提升了8.7%的精度,这背后的节能效果更是令人瞩目——训练参数大幅减少了54倍,高效且节能!🚀每一步的进步都彰显了技术的精进和创新,这样的成果无疑将为行业带来深远影响。如果你想了解更多关于这个高效能模型的信息,欢迎随时探索,我们专注于提供最优质的内容和服务。😊

而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:

每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

第一作者为Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~

论文链接:

https://arxiv.org/pdf/2301.12597.pdf

GitHub链接:

https://github.com/salesforce/LAVIS/tree/main/projects/blip2

参考链接:

[1]https://twitter.com/mrdbourke/status/1620353263651688448 [2]https://twitter.com/LiJunnan0409/status/1620259379223343107

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

逆向思考!BLIP-2的超能力:图片里的秘密它全知道?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!