ChatGPT的多模态升级：能开口说话，识别物体

文章主题：多模态, 语音输入, 图像输入

ChatGPT又迎来大升级，这次是“多模态”，能开口说话，识别物体。

在周一的当地时间，人工智能领域的领军企业OpenAI做出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域，包括语音和图像识别。这一创新性的功能预计将在未来两周内，向 Plus 和企业用户提供。这个消息一发布，立即引起了全球范围内科技爱好者和专业人士的关注。

打开凤凰新闻，查看更多高清图片

OpenAI发布声明指出，ChatGPT所提供的语音与图像功能开启了一个全新的、直观的交互界面，使用户能够通过语音对话或向ChatGPT展示正在讨论的内容。这一项新功能将使用户在日常生活中使用ChatGPT的方式更加多样化。

1）用户可以在旅行时拍下一张地标的照片，并就它的有趣之处与ChatGPT进行现场对话；

2）当用户在家时，拍下冰箱和餐具室的照片，ChatGPT可以给出晚餐食谱；

3）如果用户在帮自己的孩子做一道数学题，拍张照片，圈出题集，ChatGPT会给出提示。

新功能有哪些用途？

在 OpenAI 的介绍下，语音输入功能仿佛手机中的语音助手一般，用户只需轻触一个按钮，便可以诉说自己的疑问。接着，ChatGPT 将这些问题转化为文本形式，并生成相应的答案，随后再次将答案转化为语音格式，最终呈现给用户。

OpenAI 研发了一种创新性的文本转语音技术，能够根据极短时间的样本语音，生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音色中的任意一种，这一功能不仅拓展了其应用场景，还具备更多潜力，例如将播客内容翻译成多种语言，同时保留播客主持人的独特声音特点。

OpenAI表示，它与配音演员合作，共同构建了该功能的文本到语音AI模型。

ChatGPT的多模态升级：能开口说话，识别物体

图像输入功能与Google Lens类似，允许用户捕捉自己感兴趣的物体并进行上传至ChatGPT的操作。ChatGPT将会努力解析用户所寻求的信息，并作出相应的回应。此外，用户还可以运用应用程序内的绘图功能来辅助阐述疑问，或者通过语音、文本输入等方式进行沟通。

ChatGPT的多模态升级：能开口说话，识别物体

以OpenAI的实例为例，一位用户上传了一张自行车照片，并咨询ChatGPT如何调整座椅高度。针对此问题，ChatGPT迅速准确地识别出了座椅调节的种类以及所需的工具。

ChatGPT的多模态升级：能开口说话，识别物体

随后，用户又询问其工具箱中哪个是所需的工具，ChatGPT也是成功识别，并提示用户需要拿哪一个尺寸。

ChatGPT的多模态升级：能开口说话，识别物体

设想即将实现？

可以看出，ChatGPT的功能越来越强大，非常智能。此前，OpenAI首席执行官Sam Altman和比尔·盖茨都曾对ChatGPT未来的应用前景进行设想。

Altman曾私下告诉开发者，希望将ChatGPT打造成“超级智能个人工作助理”，可以根据个人及工作需求执行多种任务，如按照用户的风格起草邮件或文件，提供相关业务的最新信息。

盖茨也曾表示，技术竞赛将推动顶级AI助理的诞生，颠覆现有生产力，可能会从根本上改变用户的行为，乃至取代搜索和购物网站。

不过，ChatGPT也提示，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

ChatGPT的多模态升级：能开口说话，识别物体

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！