OpenAI ได้เปิดตัวฟีเจอร์ใหม่ด้านการประมวลผลเสียงและภาพสำหรับ ChatGPT ซึ่งช่วยให้ผู้ใช้สามารถพูดคุยกับแชทบอทและอัปโหลดรูปภาพให้ AI วิเคราะห์ได้ การอัปเดตนี้ขยายขีดความสามารถของเครื่องมือให้เกินกว่าการโต้ตอบด้วยข้อความ เพิ่มความสะดวกสบายที่อาจเปลี่ยนวิธีที่ผู้คนใช้งานบริการนี้ในชีวิตประจำวัน
ฟีเจอร์ใหม่ทำอะไรได้บ้าง
\nด้วยความสามารถด้านเสียง ผู้ใช้สามารถพูดคุยกับ ChatGPT ได้โดยตรงแทนการพิมพ์ ระบบรู้จำคำพูดธรรมชาติและตอบกลับด้วยน้ำเสียงเหมือนสนทนา สำหรับการประมวลผลภาพ ผู้ใช้สามารถถ่ายรูปหรืออัปโหลดจากแกลเลอรี และ AI จะอธิบายสิ่งที่เห็น ระบุวัตถุ หรือตอบคำถามเกี่ยวกับเนื้อหานั้น บริษัทระบุว่าฟีเจอร์ทั้งสองทำงานได้ทั้งบนเดสก์ท็อปและมือถือของ ChatGPT
การเปลี่ยนแปลงประสบการณ์ผู้ใช้
\nสำหรับคนที่กำลังทำอาหารเย็นและต้องการวัตถุดิบทดแทนอย่างเร่งด่วน การป้อนข้อมูลด้วยเสียงหมายถึงไม่ต้องหยุดและพิมพ์ นักเดินทางสามารถถ่ายรูปป้ายถนนภาษาต่างประเทศแล้วขอให้แชทบอทแปลหรืออธิบาย การผสมผสานระหว่างเสียงและภาพทำให้ ChatGPT ใกล้เคียงกับผู้ช่วยแบบแฮนด์ฟรีที่เข้าใจบริบทจากทั้งคำพูดและสัญญาณภาพ ฟีเจอร์เหล่านี้กำลังทยอยเปิดให้ผู้ใช้ในช่วงไม่กี่สัปดาห์ข้างหน้า แม้ว่า OpenAI จะไม่ได้ระบุวันที่แน่นอนสำหรับการใช้งานเต็มรูปแบบ
ตำแหน่งของเทคโนโลยีนี้ในภาพรวม
\nแชทบอท AI อื่น ๆ มีการป้อนข้อมูลด้วยเสียงหรือการรู้จำภาพอยู่แล้ว แต่การรวมทั้งสองอย่างเข้าไว้ในผลิตภัณฑ์ที่ใช้กันอย่างแพร่หลายอย่าง ChatGPT ถือเป็นก้าวสำคัญ OpenAI ได้ค่อย ๆ เพิ่มความสามารถแบบหลายรูปแบบ (multimodal) ก่อนหน้านี้ในปีนี้ได้เปิดตัวความสามารถในการสร้างภาพด้วย DALL-E และตอนนี้กำลังนำการรับรู้ในทิศทางตรงกันข้าม บริษัทมองว่าการอัปเดตนี้เป็นวิธีทำให้ AI ใช้งานง่ายขึ้น ให้ผู้คนสื่อสารในแบบที่เป็นธรรมชาติ: โดยการพูดและแสดงแทนที่จะพิมพ์เพียงอย่างเดียว
การเปิดตัวเริ่มต้นจากสมาชิก ChatGPT Plus ก่อน โดยคาดว่าจะขยายไปยังผู้ใช้ฟรีในภายหลัง ยังไม่มีกรอบเวลาที่แน่นอนสำหรับการเข้าถึงของผู้ใช้ทั้งหมด




