OpenAI hat neue Sprach- und Bildverarbeitungsfunktionen für ChatGPT vorgestellt, mit denen Nutzer mit dem Chatbot sprechen und Bilder zur Analyse hochladen können. Das Update erweitert das Tool über textbasierte Interaktionen hinaus und fügt eine Ebene des Komforts hinzu, die die tägliche Nutzung des Dienstes verändern könnte.
Was die neuen Funktionen tun
Mit der Sprachfunktion können Nutzer jetzt direkt mit ChatGPT sprechen, anstatt zu tippen. Das System erkennt natürliche Sprache und antwortet in einem Konversationston. Für die Bildverarbeitung können Nutzer ein Foto machen oder eines aus ihrer Kamerarolle hochladen, und die KI beschreibt, was sie sieht, identifiziert Objekte oder beantwortet Fragen zum Inhalt. Das Unternehmen gibt an, dass beide Funktionen auf den Desktop- und Mobilversionen von ChatGPT funktionieren.
Wie es die Benutzererfahrung verändert
Für jemanden, der beim Kochen des Abendessens eine schnelle Ersatzmöglichkeit benötigt, bedeutet die Spracheingabe, dass er nicht anhalten und tippen muss. Ein Reisender könnte ein Bild von einem fremden Straßenschild machen und den Chatbot bitten, es zu übersetzen oder zu erklären. Die Kombination von Sprache und Bild bringt ChatGPT näher an einen freihändigen Assistenten, der Kontext sowohl aus gesprochenen Wörtern als auch aus visuellen Hinweisen versteht. Die Funktionen werden in den nächsten Wochen für Nutzer eingeführt, obwohl OpenAI kein genaues Datum für die vollständige Verfügbarkeit genannt hat.
Wo die Technologie einzuordnen ist
Andere KI-Chatbots bieten bereits Spracheingabe oder Bilderkennung, aber beide in ein einziges, weit verbreitetes Produkt wie ChatGPT zu integrieren, ist ein bemerkenswerter Schritt. OpenAI hat nach und nach multimodale Fähigkeiten hinzugefügt – Anfang dieses Jahres führte es die Möglichkeit ein, Bilder mit DALL-E zu generieren, und jetzt bringt es die Wahrnehmung in die andere Richtung. Das Unternehmen stellt das Update als eine Möglichkeit dar, KI intuitiver zu machen, sodass Menschen so kommunizieren können, wie sie es natürlicherweise tun: durch Sprechen und Zeigen statt nur durch Tippen.
Die Einführung beginnt mit den Plus-Abonnenten von ChatGPT, eine Ausweitung auf die kostenlose Stufe wird später erwartet. Es wurde kein genauer Zeitplan genannt, wann alle Nutzer Zugang erhalten.



