文章主题:多模态, 语音输入, 图像输入

666AI工具大全,助力做AI时代先行者!

ChatGPT又迎来大升级,这次是“多模态”,能开口说话,识别物体。

在周一的当地时间,人工智能领域的领军企业OpenAI做出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域,包括语音和图像识别。这一创新性的功能预计将在未来两周内,向 Plus 和企业用户提供。这个消息一发布,立即引起了全球范围内科技爱好者和专业人士的关注。人们对于OpenAI的这一举动充满了期待,希望他们能够带来更多的突破和创新。

ChatGPT升级:多模态功能带来全新交互体验
打开凤凰新闻,查看更多高清图片

OpenAI公司发布声明指出,ChatGPT所提供的语音及图像功能为用户带来了一种全新的、直观的交互方式。这种交互模式允许用户进行语音对话,或者向ChatGPT展示他们正在讨论的内容。这一项新功能的推出,使得用户能够更加灵活地运用ChatGPT,提供了多种在日常生活中使用该技术的可能途径。

1)用户可以在旅行时拍下一张地标的照片,并就它的有趣之处与ChatGPT进行现场对话;

2)当用户在家时,拍下冰箱和餐具室的照片,ChatGPT可以给出晚餐食谱;

3)如果用户在帮自己的孩子做一道数学题,拍张照片,圈出题集,ChatGPT会给出提示。

新功能有哪些用途?

在OpenAI的介绍下,语音输入功能仿佛手机中的语音助手一般,用户只需轻触一个按钮,便可以诉说自己的疑问。此时,ChatGPT会将其转化为文本形式,并生成相应的答案。随后,该答案又被转换回语音格式,以便于用户聆听。这一过程如同手机语音助手般,便捷且高效。

OpenAI 研发了一种创新性的文本转语音技术,能够根据极短时间的样本语音,生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音色中的任意一种,这一功能不仅拓展了其应用场景,还具有更多潜在的应用价值。例如,该模型可以实现将播客内容翻译成多种语言,同时保留播客主持人的独特声音,从而满足全球用户对于多语言内容的需求。

OpenAI表示,它与配音演员合作,共同构建了该功能的文本到语音AI模型。

ChatGPT升级:多模态功能带来全新交互体验

图像输入功能与Google Lens类似,允许用户捕捉自己感兴趣的物体并进行上传至ChatGPT的操作。ChatGPT将会努力解析用户所寻求的信息,并作出相应的回应。此外,用户还可以利用应用程序内的绘图功能来辅助阐述疑问,或者通过语音、文本输入等方式进行沟通。

ChatGPT升级:多模态功能带来全新交互体验

以OpenAI的实例为例,一位用户上传了一张自行车的照片,并咨询ChatGPT如何调整座椅高度。针对此问题,ChatGPT迅速准确地识别出了座椅调节的种类以及所需的工具。

ChatGPT升级:多模态功能带来全新交互体验

用户接着咨询了工具箱里有哪些工具是他需要的,ChatGPT再次准确地识别出了问题,然后向用户提供需要选择哪一个尺寸的工具。

ChatGPT升级:多模态功能带来全新交互体验

设想即将实现?

ChatGPT的功能日益强大且智能程度日益提高,这一点是无可置疑的。在此前,OpenAI首席执行官Sam Altman和比尔·盖茨都已经对ChatGPT未来可能的应用前景进行了预测。

Altman曾私下告诉开发者,希望将ChatGPT打造成“超级智能个人工作助理”,可以根据个人及工作需求执行多种任务,如按照用户的风格起草邮件或文件,提供相关业务的最新信息。

盖茨也曾表示,技术竞赛将推动顶级AI助理的诞生,颠覆现有生产力,可能会从根本上改变用户的行为,乃至取代搜索和购物网站。

不过,ChatGPT也提示,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。

ChatGPT升级:多模态功能带来全新交互体验

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!