OpenAI为ChatGPT引入了新的语音和图像处理功能,用户现在可以直接与聊天机器人对话,并上传图片供AI分析。此次更新将工具的使用范围扩展至纯文本交互之外,增加了便利性,可能改变人们日常使用该服务的方式。
新功能的作用
借助语音功能,用户现在可以直接与ChatGPT对话,无需打字。系统能够识别自然语音,并以对话式的语调进行回复。在图像处理方面,用户可以拍照或从相册上传图片,AI会描述所见内容、识别物体或回答相关问题。OpenAI表示,这两项功能均可在ChatGPT的桌面版和移动版上使用。
对用户体验的改变
对于正在做饭需要快速找替代食材的人来说,语音输入意味着他们不必停下手中的活打字。旅行者可以拍下异国路牌的照片,让聊天机器人翻译或解释。语音与视觉的结合,让ChatGPT更接近于一种免提助手,能够同时理解口语和视觉线索中的上下文。这些功能将在未来几周内向用户逐步推出,但OpenAI尚未公布全面开放的具体日期。
技术定位
其他AI聊天机器人已经提供语音输入或图像识别功能,但将两者整合到像ChatGPT这样广泛使用的单一产品中,是一个值得关注的进展。OpenAI一直在逐步增加多模态能力——今年早些时候,它引入了通过DALL-E生成图像的功能,现在则反向增加了感知能力。OpenAI将此次更新视为让AI更直观的一种方式,让人们能够以自然的方式交流:通过说话和展示,而不仅仅是打字。
此次更新首先面向ChatGPT Plus订阅用户开放,预计后续将扩展至免费用户。所有用户获得访问权限的具体时间尚未公布。



