Khung mô hình thế giới của Fei-Fei Li nhắm vào điểm mù không gian của AI

Fei-Fei Li, một nhà nghiên cứu kỳ cựu trong lĩnh vực trí tuệ nhân tạo, đã đưa ra một khung mô hình thế giới mới nhằm giúp máy móc có được sự hiểu biết sâu sắc hơn về không gian vật lý. Đề xuất này, nếu thành hiện thực, có thể cho phép robot điều hướng và thao tác xung quanh chúng với một mức độ hiểu biết mà AI hiện tại phần lớn còn thiếu.

Tại sao mô hình thế giới lại quan trọng

Hầu hết các hệ thống AI ngày nay nhìn thế giới như những hình ảnh phẳng hoặc dữ liệu trừu tượng. Chúng thực sự không hiểu rằng ghế là vật để ngồi, rằng tường không thể xuyên qua, hay một cái cốc sẽ rơi nếu bị đẩy khỏi bàn. Khung làm việc của Li cố gắng khắc phục điều đó bằng cách xây dựng thứ mà bà gọi là mô hình thế giới — một biểu diễn nội bộ của môi trường bao gồm hình học, vật lý và mối quan hệ giữa các vật thể.

Loại trí thông minh không gian đó rất quan trọng đối với robot phải làm việc trong nhà, kho hàng hoặc bệnh viện. Một máy hút bụi không hiểu góc cạnh sẽ va vào chúng. Một máy bay giao hàng không thể dự đoán gió có thể làm rơi gói hàng. Cách tiếp cận của Li hứa hẹn vượt qua những giới hạn này bằng cách cho phép AI mô phỏng các hành động khả thi trước khi thực hiện.

Từ mô phỏng đến thực tế

Khung làm việc không chỉ đơn thuần là về bản đồ tốt hơn. Nó còn là về việc học cách thế giới vận hành. Mô hình sẽ chạy qua các kịch bản giả định — điều gì xảy ra nếu robot đẩy một hộp, hoặc nếu một người đi ngang qua nó — và cập nhật sự hiểu biết dựa trên những gì thực sự xảy ra. Vòng phản hồi đó có thể làm cho robot linh hoạt hơn và an toàn hơn.

Li đã nghiên cứu trí thông minh không gian trong nhiều năm. Nghiên cứu trước đó của bà về nhận dạng hình ảnh đã giúp huấn luyện máy tính xác định các vật thể. Nỗ lực mới này đi xa hơn một bước: không chỉ nhìn, mà còn suy luận về không gian. Mô hình thế giới hoạt động như một loại công cụ vật lý nội bộ, cho phép AI dự đoán kết quả mà không cần thử mọi hành động trong thế giới thực.

Những thách thức phía trước

Xây dựng một mô hình thế giới đáng tin cậy là khó. Các môi trường thực tế rất hỗn loạn. Ánh sáng thay đổi, vật thể di chuyển, con người hành xử không thể đoán trước. Khung làm việc của Li sẽ cần xử lý sự hỗn loạn đó mà không bị phá vỡ. Chi phí tính toán cũng rất cao — chạy các mô phỏng chi tiết cho mọi quyết định đòi hỏi sức mạnh xử lý nghiêm trọng.

Nhà nghiên cứu này vẫn chưa công bố kết quả từ một thử nghiệm quy mô lớn. Khung làm việc được mô tả trong một bài báo gần đây, nhưng thử nghiệm thực sự sẽ là liệu nó có hoạt động bên ngoài phòng thí nghiệm hay không. Một robot có thể xây dựng và sử dụng mô hình thế giới một cách linh hoạt sẽ đại diện cho một bước tiến lớn so với các hệ thống ngày nay, vốn chủ yếu dựa vào các quy tắc được lập trình sẵn hoặc các bộ dữ liệu khổng lồ gồm các ví dụ được gắn nhãn.

Các phòng thí nghiệm khác cũng đang đẩy mạnh theo các hướng tương tự. DeepMind, OpenAI và một số nhóm đại học đều đã đề xuất các ý tưởng về mô hình thế giới. Phiên bản của Li nổi bật nhờ tập trung vào suy luận không gian — loại hiểu biết mà con người sử dụng để đi qua một căn phòng đông người mà không va vào ai.

Liệu khung làm việc có thể mở rộng vượt ra khỏi mô phỏng vào các môi trường động, hỗn loạn hay không vẫn là một câu hỏi mở. Nhóm của Li có thể đang làm việc về điều đó ngay bây giờ, nhưng chưa có mốc thời gian nào được đưa ra cho một nguyên mẫu hoạt động.

Tại sao mô hình thế giới lại quan trọng

Từ mô phỏng đến thực tế

Những thách thức phía trước

Related Articles