ChatGPT升级：多模态功能带来全新交互体验

文章主题：多模态, 语音输入, 图像输入

ChatGPT又迎来大升级，这次是“多模态”，能开口说话，识别物体。

在周一的当地时间，人工智能领域的领军企业OpenAI做出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域，包括语音和图像识别。这一创新性的功能预计将在未来两周内，向 Plus 和企业用户提供。这个消息一发布，立即引起了全球范围内科技爱好者和专业人士的关注。人们对于OpenAI的这一举动充满了期待，希望他们能够带来更多的突破和创新。

打开凤凰新闻，查看更多高清图片

OpenAI公司发布声明指出，ChatGPT所提供的语音及图像功能为用户带来了一种全新的、直观的交互方式。这种交互模式允许用户进行语音对话，或者向ChatGPT展示他们正在讨论的内容。这一项新功能的推出，使得用户能够更加灵活地运用ChatGPT，提供了多种在日常生活中使用该技术的可能途径。

1）用户可以在旅行时拍下一张地标的照片，并就它的有趣之处与ChatGPT进行现场对话；

2）当用户在家时，拍下冰箱和餐具室的照片，ChatGPT可以给出晚餐食谱；

3）如果用户在帮自己的孩子做一道数学题，拍张照片，圈出题集，ChatGPT会给出提示。

新功能有哪些用途？

在OpenAI的介绍下，语音输入功能仿佛手机中的语音助手一般，用户只需轻触一个按钮，便可以诉说自己的疑问。此时，ChatGPT会将其转化为文本形式，并生成相应的答案。随后，该答案又被转换回语音格式，以便于用户聆听。这一过程如同手机语音助手般，便捷且高效。

OpenAI 研发了一种创新性的文本转语音技术，能够根据极短时间的样本语音，生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音色中的任意一种，这一功能不仅拓展了其应用场景，还具有更多潜在的应用价值。例如，该模型可以实现将播客内容翻译成多种语言，同时保留播客主持人的独特声音，从而满足全球用户对于多语言内容的需求。

OpenAI表示，它与配音演员合作，共同构建了该功能的文本到语音AI模型。

ChatGPT升级：多模态功能带来全新交互体验

图像输入功能与Google Lens类似，允许用户捕捉自己感兴趣的物体并进行上传至ChatGPT的操作。ChatGPT将会努力解析用户所寻求的信息，并作出相应的回应。此外，用户还可以利用应用程序内的绘图功能来辅助阐述疑问，或者通过语音、文本输入等方式进行沟通。

ChatGPT升级：多模态功能带来全新交互体验

以OpenAI的实例为例，一位用户上传了一张自行车的照片，并咨询ChatGPT如何调整座椅高度。针对此问题，ChatGPT迅速准确地识别出了座椅调节的种类以及所需的工具。

ChatGPT升级：多模态功能带来全新交互体验

用户接着咨询了工具箱里有哪些工具是他需要的，ChatGPT再次准确地识别出了问题，然后向用户提供需要选择哪一个尺寸的工具。

ChatGPT升级：多模态功能带来全新交互体验

设想即将实现？

ChatGPT的功能日益强大且智能程度日益提高,这一点是无可置疑的。在此前,OpenAI首席执行官Sam Altman和比尔·盖茨都已经对ChatGPT未来可能的应用前景进行了预测。

Altman曾私下告诉开发者，希望将ChatGPT打造成“超级智能个人工作助理”，可以根据个人及工作需求执行多种任务，如按照用户的风格起草邮件或文件，提供相关业务的最新信息。

盖茨也曾表示，技术竞赛将推动顶级AI助理的诞生，颠覆现有生产力，可能会从根本上改变用户的行为，乃至取代搜索和购物网站。

不过，ChatGPT也提示，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

ChatGPT升级：多模态功能带来全新交互体验

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章