OpenAI dote ChatGPT de capacités vocales et d'analyse d'images

OpenAI a introduit de nouvelles fonctionnalités de traitement vocal et d'image pour ChatGPT, permettant aux utilisateurs de parler au chatbot et de télécharger des images que l'IA peut analyser. Cette mise à jour étend l'outil au-delà des interactions textuelles, ajoutant une couche de commodité qui pourrait changer la façon dont les gens utilisent le service au quotidien.

Ce que les nouvelles fonctionnalités apportent

Avec la capacité vocale, les utilisateurs peuvent désormais parler directement à ChatGPT au lieu de taper. Le système reconnaît la parole naturelle et répond sur un ton conversationnel. Pour le traitement d'images, les personnes peuvent prendre une photo ou en télécharger une depuis leur galerie, et l'IA décrit ce qu'elle voit, identifie des objets ou répond à des questions sur le contenu. L'entreprise indique que ces deux fonctionnalités fonctionnent sur les versions de bureau et mobile de ChatGPT.

Comment cela modifie l'expérience utilisateur

Pour quelqu'un qui prépare le dîner et a besoin d'une substitution rapide, la saisie vocale lui évite de s'arrêter pour taper. Un voyageur pourrait prendre une photo d'un panneau de rue étranger et demander au chatbot de le traduire ou de l'expliquer. La combinaison de la voix et de la vision rapproche ChatGPT d'un assistant mains libres qui comprend le contexte à partir des mots prononcés et des indices visuels. Les fonctionnalités sont déployées auprès des utilisateurs au cours des prochaines semaines, bien qu'OpenAI n'ait pas précisé de date exacte pour une disponibilité complète.

Où cette technologie se situe

D'autres chatbots IA proposent déjà la saisie vocale ou la reconnaissance d'images, mais intégrer les deux dans un seul produit largement utilisé comme ChatGPT constitue une étape notable. OpenAI a ajouté progressivement des capacités multimodales — plus tôt cette année, il a introduit la possibilité de générer des images avec DALL-E, et maintenant il apporte la perception dans l'autre sens. L'entreprise présente cette mise à jour comme un moyen de rendre l'IA plus intuitive, permettant aux gens de communiquer comme ils le feraient naturellement : en parlant et en montrant plutôt qu'en tapant uniquement.

Le déploiement commence d'abord avec les abonnés Plus de ChatGPT, une extension de la version gratuite étant prévue plus tard. Aucun calendrier précis n'a été donné quant à la date à laquelle tous les utilisateurs y auront accès.

Ce que les nouvelles fonctionnalités apportent

Comment cela modifie l'expérience utilisateur

Où cette technologie se situe

Articles Connexes