OpenAI、ChatGPTに音声と画像機能を追加

OpenAIは、ChatGPTに新たな音声および画像処理機能を導入し、ユーザーがチャットボットに話しかけたり、AIが分析するための画像をアップロードできるようにした。このアップデートにより、ツールはテキストベースの対話を超えて拡張され、人々が日常的にこのサービスを利用する方法を変える可能性のある利便性が加わる。

新機能の内容

音声機能により、ユーザーはタイピングではなくChatGPTに直接話しかけることができる。システムは自然な音声を認識し、会話調で応答する。画像処理では、ユーザーは写真を撮影するか、カメラロールからアップロードすると、AIがその内容を説明し、物体を識別し、または内容に関する質問に答える。同社によると、両機能はChatGPTのデスクトップ版とモバイル版の両方で動作する。

ユーザー体験の変化

夕食の調理中に急な代替材料が必要な場合、音声入力により手を止めてタイピングする必要がなくなる。旅行者は外国の道路標識を撮影し、チャットボットに翻訳や説明を依頼できる。音声と視覚の組み合わせにより、ChatGPTは音声と視覚的手がかりの両方から文脈を理解するハンズフリーアシスタントに近づいている。これらの機能は今後数週間かけてユーザーに展開されるが、OpenAIは完全な利用可能日については明らかにしていない。

技術の位置づけ

他のAIチャットボットはすでに音声入力や画像認識を提供しているが、両方をChatGPTのような広く使われている単一の製品に統合することは注目すべき一歩である。OpenAIは徐々にマルチモーダル機能を追加しており、今年初めにはDALL-Eによる画像生成機能を導入し、今度は逆の方向で知覚をもたらしている。同社はこのアップデートを、AIをより直感的にし、人々がタイピングだけでなく、話したり見せたりするという自然な方法でコミュニケーションできるようにするものと位置づけている。

展開はまずChatGPTのPlusサブスクライバーから始まり、その後無料層への拡大が予定されている。全ユーザーがアクセスできるようになる正確な時期は示されていない。

新機能の内容

ユーザー体験の変化

技術の位置づけ

関連記事