Kerangka Model Dunia Fei-Fei Li Menargetkan Titik Buta Spasial AI

Fei-Fei Li, seorang peneliti veteran di bidang kecerdasan buatan, telah merancang kerangka baru untuk model dunia yang bertujuan memberikan pemahaman yang jauh lebih mendalam tentang ruang fisik kepada mesin. Proposal ini, jika berhasil, dapat memungkinkan robot menavigasi dan memanipulasi lingkungan mereka dengan tingkat pemahaman yang sebagian besar AI saat ini belum miliki.

Mengapa model dunia penting

Kebanyakan sistem AI saat ini melihat dunia sebagai gambar datar atau data abstrak. Mereka tidak benar-benar memahami bahwa kursi adalah sesuatu untuk diduduki, bahwa dinding tidak bisa ditembus, atau bahwa cangkir akan jatuh jika didorong dari meja. Kerangka kerja Li mencoba memperbaikinya dengan membangun apa yang ia sebut model dunia — representasi internal dari lingkungan yang mencakup geometri, fisika, dan hubungan antar objek.

Kecerdasan spasial semacam itu sangat penting bagi robot yang harus bekerja di rumah, gudang, atau rumah sakit. Penyedot debu yang tidak memahami sudut akan menabraknya. Drone pengirim yang tidak bisa memprediksi angin mungkin akan menjatuhkan paket. Pendekatan Li menjanjikan untuk melampaui batasan-batasan ini dengan memungkinkan AI mensimulasikan tindakan yang mungkin dilakukan sebelum benar-benar melakukannya.

Dari simulasi ke kenyataan

Kerangka ini bukan hanya tentang peta yang lebih baik. Ini tentang belajar bagaimana dunia berperilaku. Model akan menjalankan skenario hipotetis — apa yang terjadi jika robot mendorong kotak, atau jika seseorang berjalan di depannya — dan memperbarui pemahamannya berdasarkan apa yang sebenarnya terjadi. Umpan balik itu bisa membuat robot lebih adaptif dan lebih aman.

Li telah mengerjakan kecerdasan spasial selama bertahun-tahun. Penelitian sebelumnya tentang pengenalan gambar membantu melatih komputer untuk mengidentifikasi objek. Upaya baru ini melangkah lebih jauh: tidak hanya melihat, tetapi juga berpikir tentang ruang. Model dunia bertindak seperti mesin fisika internal, memungkinkan AI memprediksi hasil tanpa harus mencoba setiap tindakan di dunia nyata.

Tantangan ke depan

Membangun model dunia yang andal itu sulit. Lingkungan nyata berantakan. Pencahayaan berubah, objek bergerak, orang berperilaku tak terduga. Kerangka kerja Li harus mampu menangani kekacauan itu tanpa mengalami kegagalan. Biaya komputasi juga tinggi — menjalankan simulasi detail untuk setiap keputusan membutuhkan daya pemrosesan yang besar.

Sang peneliti belum mempublikasikan hasil dari uji coba skala besar. Kerangka ini dijelaskan dalam makalah baru-baru ini, tetapi ujian sesungguhnya adalah apakah ia bekerja di luar laboratorium. Robot yang dapat membangun dan menggunakan model dunia secara cepat akan menjadi lompatan besar dibandingkan sistem saat ini, yang sebagian besar bergantung pada aturan yang sudah diprogram atau kumpulan data besar dengan contoh berlabel.

Laboratorium lain juga bergerak ke arah yang sama. DeepMind, OpenAI, dan beberapa kelompok universitas telah mengusulkan gagasan model dunia. Versi Li menonjol karena fokusnya pada penalaran spasial — jenis pemahaman yang digunakan manusia untuk berjalan melewati ruangan yang ramai tanpa menabrak siapa pun.

Apakah kerangka ini dapat diskalakan melampaui simulasi ke lingkungan yang kacau dan dinamis masih menjadi pertanyaan terbuka. Tim Li kemungkinan sedang mengerjakan hal itu sekarang, tetapi belum ada jadwal yang diberikan untuk prototipe yang berfungsi.

Mengapa model dunia penting

Dari simulasi ke kenyataan

Tantangan ke depan

Related Articles