OpenAI lägger till röst- och bildfunktioner i ChatGPT

OpenAI har introducerat nya röst- och bildbehandlingsfunktioner för ChatGPT, vilket låter användare prata med chatboten och ladda upp bilder som AI:n kan analysera. Uppdateringen utökar verktyget bortom textbaserade interaktioner och lägger till ett lager av bekvämlighet som kan förändra hur människor använder tjänsten i vardagen.

Vad de nya funktionerna gör

Med röstfunktionen kan användare nu prata direkt med ChatGPT istället för att skriva. Systemet känner igen naturligt tal och svarar i en konverserande ton. För bildbehandling kan man ta ett foto eller ladda upp ett från sitt bildgalleri, och AI:n beskriver vad den ser, identifierar objekt eller svarar på frågor om innehållet. Företaget uppger att båda funktionerna fungerar på skrivbords- och mobilversionerna av ChatGPT.

Hur det förändrar användarupplevelsen

För någon som lagar middag och snabbt behöver en ersättning innebär röstinmatning att de inte behöver stanna och skriva. En resenär kan fota en utländsk gatuskylt och be chatboten översätta eller förklara den. Kombinationen av röst och syn för ChatGPT närmare en handsfree-assistent som förstår sammanhang från både talade ord och visuella signaler. Funktionerna rullas ut till användare under de kommande veckorna, även om OpenAI inte har angett ett exakt datum för full tillgänglighet.

Var tekniken passar in

Andra AI-chatbotar erbjuder redan röstinmatning eller bildigenkänning, men att integrera båda i en enda, allmänt använd produkt som ChatGPT är ett anmärkningsvärt steg. OpenAI har gradvis lagt till multimodala förmågor – tidigare i år introducerade de möjligheten att generera bilder med DALL-E, och nu för de perception i motsatt riktning. Företaget beskriver uppdateringen som ett sätt att göra AI mer intuitiv, så att människor kan kommunicera på det sätt de naturligt skulle: genom att prata och visa snarare än att bara skriva.

Utrullningen börjar med ChatGPT:s Plus-prenumeranter först, med en gratisnivå som förväntas komma senare. Ingen exakt tidsplan har getts för när alla användare får tillgång.

Vad de nya funktionerna gör

Hur det förändrar användarupplevelsen

Var tekniken passar in

Related Articles