OpenAI đã giới thiệu các tính năng xử lý giọng nói và hình ảnh mới cho ChatGPT, cho phép người dùng nói chuyện với chatbot và tải ảnh lên để AI phân tích. Bản cập nhật mở rộng công cụ này ra ngoài các tương tác dựa trên văn bản, bổ sung thêm một lớp tiện lợi có thể thay đổi cách mọi người sử dụng dịch vụ hàng ngày.
Các tính năng mới làm được gì
Với khả năng giọng nói, người dùng giờ đây có thể nói trực tiếp với ChatGPT thay vì gõ chữ. Hệ thống nhận dạng giọng nói tự nhiên và phản hồi bằng giọng điệu đối thoại. Đối với xử lý hình ảnh, mọi người có thể chụp ảnh hoặc tải lên từ thư viện ảnh của mình, và AI sẽ mô tả những gì nó thấy, xác định đồ vật hoặc trả lời các câu hỏi về nội dung. Công ty cho biết cả hai tính năng đều hoạt động trên phiên bản máy tính để bàn và di động của ChatGPT.
Cách nó thay đổi trải nghiệm người dùng
Đối với ai đó đang nấu bữa tối và cần một nguyên liệu thay thế nhanh, nhập liệu bằng giọng nói có nghĩa là họ không phải dừng lại và gõ chữ. Một du khách có thể chụp ảnh biển báo đường phố nước ngoài và yêu cầu chatbot dịch hoặc giải thích. Sự kết hợp giữa giọng nói và thị giác đưa ChatGPT đến gần hơn với một trợ lý rảnh tay, hiểu ngữ cảnh từ cả lời nói và tín hiệu thị giác. Các tính năng này đang được triển khai cho người dùng trong vài tuần tới, mặc dù OpenAI chưa công bố ngày cụ thể cho việc có sẵn đầy đủ.
Công nghệ này nằm ở đâu
Các chatbot AI khác đã cung cấp nhập liệu bằng giọng nói hoặc nhận dạng hình ảnh, nhưng tích hợp cả hai vào một sản phẩm được sử dụng rộng rãi như ChatGPT là một bước tiến đáng chú ý. OpenAI đã dần dần bổ sung các khả năng đa phương thức—đầu năm nay, họ đã giới thiệu khả năng tạo hình ảnh với DALL-E, và bây giờ họ mang khả năng nhận thức theo hướng ngược lại. Công ty coi bản cập nhật này là một cách để làm cho AI trực quan hơn, cho phép mọi người giao tiếp theo cách tự nhiên: bằng cách nói và chỉ ra thay vì chỉ gõ chữ.
Việc triển khai bắt đầu với những người đăng ký ChatGPT Plus trước, với việc mở rộng cho gói miễn phí dự kiến sau đó. Chưa có mốc thời gian chính xác nào được đưa ra cho thời điểm tất cả người dùng có quyền truy cập.




