OpenAI为ChatGPT新增语音与图像功能

OpenAI为ChatGPT引入了新的语音和图像处理功能，用户现在可以直接与聊天机器人对话，并上传图片供AI分析。此次更新将工具的使用范围扩展至纯文本交互之外，增加了便利性，可能改变人们日常使用该服务的方式。

新功能的作用

借助语音功能，用户现在可以直接与ChatGPT对话，无需打字。系统能够识别自然语音，并以对话式的语调进行回复。在图像处理方面，用户可以拍照或从相册上传图片，AI会描述所见内容、识别物体或回答相关问题。OpenAI表示，这两项功能均可在ChatGPT的桌面版和移动版上使用。

对用户体验的改变

对于正在做饭需要快速找替代食材的人来说，语音输入意味着他们不必停下手中的活打字。旅行者可以拍下异国路牌的照片，让聊天机器人翻译或解释。语音与视觉的结合，让ChatGPT更接近于一种免提助手，能够同时理解口语和视觉线索中的上下文。这些功能将在未来几周内向用户逐步推出，但OpenAI尚未公布全面开放的具体日期。

技术定位

其他AI聊天机器人已经提供语音输入或图像识别功能，但将两者整合到像ChatGPT这样广泛使用的单一产品中，是一个值得关注的进展。OpenAI一直在逐步增加多模态能力——今年早些时候，它引入了通过DALL-E生成图像的功能，现在则反向增加了感知能力。OpenAI将此次更新视为让AI更直观的一种方式，让人们能够以自然的方式交流：通过说话和展示，而不仅仅是打字。

此次更新首先面向ChatGPT Plus订阅用户开放，预计后续将扩展至免费用户。所有用户获得访问权限的具体时间尚未公布。

新功能的作用

对用户体验的改变

技术定位

相关文章