OpenAI เพิ่มความสามารถด้านเสียงและภาพให้กับ ChatGPT

OpenAI ได้เปิดตัวฟีเจอร์ใหม่ด้านการประมวลผลเสียงและภาพสำหรับ ChatGPT ซึ่งช่วยให้ผู้ใช้สามารถพูดคุยกับแชทบอทและอัปโหลดรูปภาพให้ AI วิเคราะห์ได้ การอัปเดตนี้ขยายขีดความสามารถของเครื่องมือให้เกินกว่าการโต้ตอบด้วยข้อความ เพิ่มความสะดวกสบายที่อาจเปลี่ยนวิธีที่ผู้คนใช้งานบริการนี้ในชีวิตประจำวัน

ฟีเจอร์ใหม่ทำอะไรได้บ้าง

ด้วยความสามารถด้านเสียง ผู้ใช้สามารถพูดคุยกับ ChatGPT ได้โดยตรงแทนการพิมพ์ ระบบรู้จำคำพูดธรรมชาติและตอบกลับด้วยน้ำเสียงเหมือนสนทนา สำหรับการประมวลผลภาพ ผู้ใช้สามารถถ่ายรูปหรืออัปโหลดจากแกลเลอรี และ AI จะอธิบายสิ่งที่เห็น ระบุวัตถุ หรือตอบคำถามเกี่ยวกับเนื้อหานั้น บริษัทระบุว่าฟีเจอร์ทั้งสองทำงานได้ทั้งบนเดสก์ท็อปและมือถือของ ChatGPT

การเปลี่ยนแปลงประสบการณ์ผู้ใช้

สำหรับคนที่กำลังทำอาหารเย็นและต้องการวัตถุดิบทดแทนอย่างเร่งด่วน การป้อนข้อมูลด้วยเสียงหมายถึงไม่ต้องหยุดและพิมพ์ นักเดินทางสามารถถ่ายรูปป้ายถนนภาษาต่างประเทศแล้วขอให้แชทบอทแปลหรืออธิบาย การผสมผสานระหว่างเสียงและภาพทำให้ ChatGPT ใกล้เคียงกับผู้ช่วยแบบแฮนด์ฟรีที่เข้าใจบริบทจากทั้งคำพูดและสัญญาณภาพ ฟีเจอร์เหล่านี้กำลังทยอยเปิดให้ผู้ใช้ในช่วงไม่กี่สัปดาห์ข้างหน้า แม้ว่า OpenAI จะไม่ได้ระบุวันที่แน่นอนสำหรับการใช้งานเต็มรูปแบบ

ตำแหน่งของเทคโนโลยีนี้ในภาพรวม

แชทบอท AI อื่น ๆ มีการป้อนข้อมูลด้วยเสียงหรือการรู้จำภาพอยู่แล้ว แต่การรวมทั้งสองอย่างเข้าไว้ในผลิตภัณฑ์ที่ใช้กันอย่างแพร่หลายอย่าง ChatGPT ถือเป็นก้าวสำคัญ OpenAI ได้ค่อย ๆ เพิ่มความสามารถแบบหลายรูปแบบ (multimodal) ก่อนหน้านี้ในปีนี้ได้เปิดตัวความสามารถในการสร้างภาพด้วย DALL-E และตอนนี้กำลังนำการรับรู้ในทิศทางตรงกันข้าม บริษัทมองว่าการอัปเดตนี้เป็นวิธีทำให้ AI ใช้งานง่ายขึ้น ให้ผู้คนสื่อสารในแบบที่เป็นธรรมชาติ: โดยการพูดและแสดงแทนที่จะพิมพ์เพียงอย่างเดียว

การเปิดตัวเริ่มต้นจากสมาชิก ChatGPT Plus ก่อน โดยคาดว่าจะขยายไปยังผู้ใช้ฟรีในภายหลัง ยังไม่มีกรอบเวลาที่แน่นอนสำหรับการเข้าถึงของผู้ใช้ทั้งหมด

ฟีเจอร์ใหม่ทำอะไรได้บ้าง

การเปลี่ยนแปลงประสบการณ์ผู้ใช้

ตำแหน่งของเทคโนโลยีนี้ในภาพรวม

Related Articles