文章主题:ChatGPT, 多模态能力, GPT-4V, 缺陷
ChatGPT 多模态能力引发热潮,但自家论文揭示 GPT-4V 仍存缺陷
撰文:Kyle Wiggers
来源:TechCrunch
图片来源:由无界 AI工具生成
当 OpenAI 初次推出其最新的文本生成人工智能模型 GPT-4 时,该公司强调了该模型具有的多模态性,也就是说,它不仅具备处理文本的能力,同时也能理解图像。据OpenAI 介绍,GPT-4 在处理复杂图片时,能够为其添加字幕,甚至还能提供解释,例如能从插入 iPhone 的图片中识别出 Lightning Cable 适配器这类细节。
自GPT-4于三月底发布以来,OpenAI一直保持着对该模型图像功能的保留,这一举措被认为是为了防止潜在的滥用和隐私问题。然而,至我国本周初,这些担忧的具體性仍是一個謎团。最近,OpenAI發表了一篇技術論文,深入探討了他們為減少GPT-4圖像分析工具中出現問題的部分所進行的努力。
迄今为止,GPT-4(OpenAI内部称之为“GPT-4V”),这款具备视觉功能的模型,仅在Be My Eyes这款帮助视弱群体和盲人浏览周围环境的应用中,被数千名用户定期使用。然而,根据一项研究论文,近几个月来,OpenAI开始与“红队人员”展开合作,以探索该模型是否会出现意外行为迹象。
在学术论文中,OpenAI 声称其已采取相应措施,以确保 GPT-4V 不会被恶意利用。这些措施包括破解验证码、识别个人身份或估计年龄、种族,并根据照片中不存在的信息得出相关结论。此外,OpenAI 强调其已尽力抑制 GPT-4V 中更具破坏性的偏见,尤其关注与人外貌、性别及种族相关的歧视性观点。
但与所有人工智能模型一样,保障措施也只能做到这么多。
根据研究论文揭示,GPT-4V 在某些情况下难以做出准确判断,如将图像中两组文字错误地结合,生成虚假词汇。类似于基础版的 GPT-4,GPT-4V 同样容易出现错觉,或者以权威的口吻捏造不实信息。此外,它还可能遗漏文字、字符,忽视数学符号,并对明显的人物和地点设置无法识别。
OpenAI 对于 GPT-4V 的应用范围做出了明确的限制,指出其不适用于检测图像中的危险物质或化学物质,这一点并不令人意外。然而,值得注意的是,尽管如此,OpenAI 对这一潜在的应用前景仍然保持高度关注,并因此认为有必要对其进行指正。据红队成员的研究发现,尽管 GPT-4V 在识别有毒食物(例如毒蘑菇)方面具有较高的准确性,但在处理化学结构图像时,其会出现错误,误识出芬太尼、卡芬太尼以及可卡因等物质。
当应用到医学影像领域时,GPT-4V 的表现也不尽如人意,有时会对同一问题给出错误的回答,而它在之前的情况下却回答正确。此外,GPT-4V 也没有意识到一些标准做法,比如在查看成像扫描时,病人是面对着你的(这意味着图像上的右侧对应病人的左侧),而这也会导致误诊。
OpenAI 警告说,在其他地方,GPT-4V 也不理解某些仇恨符号的细微差别 — 例如,它不知道圣殿十字架(白人至上主义)在美国的现代含义。更奇怪的是,也许是其幻觉倾向的一种表现,人们观察到 GPT-4V 在获得某些仇恨人物或团体的图片时,会创作歌曲或诗歌来进行赞美,即使这些人物或团体并没有被明确点名。
GPT-4V 还会歧视某些性别和体型 — 尽管只是在禁用 OpenAI 的产出保障措施时才会发生。OpenAI 写道,在一次测试中,当被要求给一位身穿泳衣的女性提供建议时,GPT-4V 给出的答案几乎完全与这位女性的体重和身体状况的概念有关。我们猜想,如果图片上的人是男性,情况就不会是这样。
从论文的注意事项来看,GPT-4V 在很大程度上仍是一项正在进行中的工作 — 距离 OpenAI 最初的设想还差几步。在许多情况下,该公司不得不实施过于严格的保障措施,以防止模型传播有毒或错误信息,或泄露个人隐私。
OpenAI 声称,它正在构建“缓解措施”和“流程”,以“安全”的方式扩展模型的能力,比如允许 GPT-4V 在不指名道姓的情况下描述人脸和人物。但这篇论文显示,GPT-4V 并不是万能的,OpenAI 还有很多工作要做。返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!