Η OpenAI παρουσίασε νέες δυνατότητες επεξεργασίας φωνής και εικόνας για το ChatGPT, επιτρέποντας στους χρήστες να μιλούν στο chatbot και να ανεβάζουν φωτογραφίες για ανάλυση από την τεχνητή νοημοσύνη. Η ενημέρωση επεκτείνει το εργαλείο πέρα από τις αλληλεπιδράσεις που βασίζονται σε κείμενο, προσθέτοντας ένα επίπεδο ευκολίας που θα μπορούσε να αλλάξει τον τρόπο που οι άνθρωποι χρησιμοποιούν την υπηρεσία σε καθημερινή βάση.
Τι κάνουν τα νέα χαρακτηριστικά
Με τη δυνατότητα φωνής, οι χρήστες μπορούν πλέον να μιλούν απευθείας στο ChatGPT αντί να πληκτρολογούν. Το σύστημα αναγνωρίζει τον φυσικό λόγο και απαντά με συνομιλητικό ύφος. Για την επεξεργασία εικόνας, οι άνθρωποι μπορούν να τραβήξουν μια φωτογραφία ή να ανεβάσουν μία από το άλμπουμ τους και η τεχνητή νοημοσύνη θα περιγράψει τι βλέπει, θα αναγνωρίσει αντικείμενα ή θα απαντήσει σε ερωτήσεις σχετικά με το περιεχόμενο. Η εταιρεία αναφέρει ότι και τα δύο χαρακτηριστικά λειτουργούν στις εκδόσεις επιτραπέζιου υπολογιστή και κινητού του ChatGPT.
Πώς αλλάζει την εμπειρία του χρήστη
Για κάποιον που μαγειρεύει δείπνο και χρειάζεται μια γρήγορη υποκατάσταση υλικού, η φωνητική είσοδος σημαίνει ότι δεν χρειάζεται να σταματήσει για να πληκτρολογήσει. Ένας ταξιδιώτης θα μπορούσε να τραβήξει μια φωτογραφία μιας ξένης πινακίδας δρόμου και να ζητήσει από το chatbot να τη μεταφράσει ή να την εξηγήσει. Ο συνδυασμός φωνής και όρασης φέρνει το ChatGPT πιο κοντά σε έναν βοηθό χωρίς χέρια που κατανοεί το πλαίσιο τόσο από προφορικές λέξεις όσο και από οπτικές ενδείξεις. Τα χαρακτηριστικά κυκλοφορούν στους χρήστες σταδιακά τις επόμενες εβδομάδες, αν και η OpenAI δεν έχει διευκρινίσει ακριβή ημερομηνία για πλήρη διαθεσιμότητα.
Πού εντάσσεται η τεχνολογία
Άλλα chatbot τεχνητής νοημοσύνης προσφέρουν ήδη φωνητική είσοδο ή αναγνώριση εικόνας, αλλά η ενσωμάτωση και των δύο σε ένα ενιαίο, ευρέως χρησιμοποιούμενο προϊόν όπως το ChatGPT αποτελεί αξιοσημείωτο βήμα. Η OpenAI έχει προσθέτει σταδιακά πολυτροπικές δυνατότητες—νωρίτερα φέτος εισήγαγε τη δυνατότητα δημιουργίας εικόνων με το DALL-E και τώρα φέρνει την αντίληψη προς την αντίθετη κατεύθυνση. Η εταιρεία παρουσιάζει την ενημέρωση ως έναν τρόπο να γίνει η τεχνητή νοημοσύνη πιο διαισθητική, επιτρέποντας στους ανθρώπους να επικοινωνούν με τον φυσικό τρόπο που θα το έκαναν: μιλώντας και δείχνοντας αντί να πληκτρολογούν απλώς.
Η διάθεση ξεκινά πρώτα με τους συνδρομητές ChatGPT Plus, ενώ αναμένεται αργότερα επέκταση στη δωρεάν βαθμίδα. Δεν έχει δοθεί ακριβές χρονοδιάγραμμα για το πότε θα αποκτήσουν πρόσβαση όλοι οι χρήστες.




