文章主题:多模态, 语音输入, 图像输入

666AI工具大全,助力做AI时代先行者!

ChatGPT又迎来大升级,这次是“多模态”,能开口说话,识别物体。

在周一的当地时间,人工智能领域的领军企业OpenAI做出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域,包括语音和图像识别。这一创新性的功能预计将在未来两周内,向 Plus 和企业用户提供。这个消息一发布,立即引起了全球范围内科技爱好者和专业人士的关注。

ChatGPT的多模态升级:能开口说话,识别物体
打开凤凰新闻,查看更多高清图片

OpenAI发布声明指出,ChatGPT所提供的语音与图像功能开启了一个全新的、直观的交互界面,使用户能够通过语音对话或向ChatGPT展示正在讨论的内容。这一项新功能将使用户在日常生活中使用ChatGPT的方式更加多样化。

1)用户可以在旅行时拍下一张地标的照片,并就它的有趣之处与ChatGPT进行现场对话;

2)当用户在家时,拍下冰箱和餐具室的照片,ChatGPT可以给出晚餐食谱;

3)如果用户在帮自己的孩子做一道数学题,拍张照片,圈出题集,ChatGPT会给出提示。

新功能有哪些用途?

在 OpenAI 的介绍下,语音输入功能仿佛手机中的语音助手一般,用户只需轻触一个按钮,便可以诉说自己的疑问。接着,ChatGPT 将这些问题转化为文本形式,并生成相应的答案,随后再次将答案转化为语音格式,最终呈现给用户。

OpenAI 研发了一种创新性的文本转语音技术,能够根据极短时间的样本语音,生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音色中的任意一种,这一功能不仅拓展了其应用场景,还具备更多潜力,例如将播客内容翻译成多种语言,同时保留播客主持人的独特声音特点。

OpenAI表示,它与配音演员合作,共同构建了该功能的文本到语音AI模型。

ChatGPT的多模态升级:能开口说话,识别物体

图像输入功能与Google Lens类似,允许用户捕捉自己感兴趣的物体并进行上传至ChatGPT的操作。ChatGPT将会努力解析用户所寻求的信息,并作出相应的回应。此外,用户还可以运用应用程序内的绘图功能来辅助阐述疑问,或者通过语音、文本输入等方式进行沟通。

ChatGPT的多模态升级:能开口说话,识别物体

以OpenAI的实例为例,一位用户上传了一张自行车照片,并咨询ChatGPT如何调整座椅高度。针对此问题,ChatGPT迅速准确地识别出了座椅调节的种类以及所需的工具。

ChatGPT的多模态升级:能开口说话,识别物体

随后,用户又询问其工具箱中哪个是所需的工具,ChatGPT也是成功识别,并提示用户需要拿哪一个尺寸。

ChatGPT的多模态升级:能开口说话,识别物体

设想即将实现?

可以看出,ChatGPT的功能越来越强大,非常智能。此前,OpenAI首席执行官Sam Altman和比尔·盖茨都曾对ChatGPT未来的应用前景进行设想。

Altman曾私下告诉开发者,希望将ChatGPT打造成“超级智能个人工作助理”,可以根据个人及工作需求执行多种任务,如按照用户的风格起草邮件或文件,提供相关业务的最新信息。

盖茨也曾表示,技术竞赛将推动顶级AI助理的诞生,颠覆现有生产力,可能会从根本上改变用户的行为,乃至取代搜索和购物网站。

不过,ChatGPT也提示,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。

ChatGPT的多模态升级:能开口说话,识别物体

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!