OpenAI aggiunge funzionalità vocali e di immagine a ChatGPT

OpenAI ha introdotto nuove funzionalità di elaborazione vocale e di immagini per ChatGPT, consentendo agli utenti di parlare con il chatbot e caricare foto per l'analisi da parte dell'IA. L'aggiornamento amplia lo strumento oltre le interazioni basate su testo, aggiungendo un livello di praticità che potrebbe cambiare il modo in cui le persone utilizzano il servizio quotidianamente.

Cosa fanno le nuove funzionalità

Con la funzionalità vocale, gli utenti possono ora parlare direttamente con ChatGPT invece di digitare. Il sistema riconosce il linguaggio naturale e risponde con un tono colloquiale. Per l'elaborazione delle immagini, le persone possono scattare una foto o caricarne una dalla galleria, e l'IA descriverà ciò che vede, identificherà oggetti o risponderà a domande sul contenuto. L'azienda afferma che entrambe le funzionalità funzionano sulle versioni desktop e mobile di ChatGPT.

Come cambia l'esperienza utente

Per chi sta cucinando la cena e ha bisogno di un sostituto rapido, l'input vocale significa che non deve fermarsi per digitare. Un viaggiatore potrebbe fotografare un cartello stradale straniero e chiedere al chatbot di tradurlo o spiegarlo. La combinazione di voce e visione avvicina ChatGPT a un assistente a mani libere che comprende il contesto sia dalle parole pronunciate che dagli indizi visivi. Le funzionalità verranno distribuite agli utenti nelle prossime settimane, anche se OpenAI non ha specificato una data precisa per la piena disponibilità.

Dove si inserisce la tecnologia

Altri chatbot IA offrono già input vocale o riconoscimento delle immagini, ma integrare entrambi in un unico prodotto ampiamente utilizzato come ChatGPT è un passo notevole. OpenAI ha gradualmente aggiunto capacità multimodali: all'inizio di quest'anno ha introdotto la possibilità di generare immagini con DALL-E, e ora sta portando la percezione nella direzione opposta. L'azienda presenta l'aggiornamento come un modo per rendere l'IA più intuitiva, permettendo alle persone di comunicare nel modo più naturale: parlando e mostrando, anziché solo digitando.

Il rollout inizia prima con gli abbonati a ChatGPT Plus, con un'espansione al livello gratuito prevista in seguito. Non è stato fornito un calendario preciso per quando tutti gli utenti avranno accesso.

Cosa fanno le nuove funzionalità

Come cambia l'esperienza utente

Dove si inserisce la tecnologia

Articoli Correlati