인공지능(AI) 분야의 베테랑 연구원인 Fei-Fei Li가 기계가 물리적 공간을 훨씬 더 깊이 이해할 수 있도록 하는 세계 모델에 대한 새로운 프레임워크를 제시했다. 이 제안이 실현된다면 로봇이 현재 AI가 크게 결여하고 있는 수준의 이해를 바탕으로 주변 환경을 탐색하고 조작할 수 있게 될 것이다.
세계 모델이 중요한 이유
오늘날 대부분의 AI 시스템은 세상을 평평한 이미지나 추상적인 데이터로 본다. 그들은 의자가 앉는 것이라는 점, 벽은 통과할 수 없다는 점, 컵이 테이블에서 밀리면 떨어진다는 점을 실제로 이해하지 못한다. Li의 프레임워크는 기하학, 물리학, 그리고 객체 간의 관계를 포함하는 환경의 내부 표현인 소위 세계 모델을 구축함으로써 이를 해결하려고 한다.
이러한 종류의 공간 지능은 가정, 창고, 또는 병원에서 작업해야 하는 로봇에게 매우 중요하다. 모서리를 이해하지 못하는 진공청소기는 모서리에 부딪힌다. 바람을 예측하지 못하는 배달 드론은 패키지를 떨어뜨릴 수 있다. Li의 접근 방식은 AI가 행동을 취하기 전에 가능한 행동을 시뮬레이션할 수 있게 함으로써 이러한 한계를 넘어설 것을 약속한다.
시뮬레이션에서 현실로
이 프레임워크는 단순히 더 나은 지도에 관한 것이 아니다. 그것은 세상이 어떻게 행동하는지 학습하는 것이다. 모델은 가상 시나리오—로봇이 상자를 밀면 어떻게 되는지, 사람이 그 앞을 지나가면 어떻게 되는지—를 실행하고 실제로 발생하는 일에 따라 이해를 업데이트한다. 이러한 피드백 루프는 로봇을 더 적응적이고 안전하게 만들 수 있다.
Li는 수년간 공간 지능에 대해 연구해 왔다. 그녀의 초기 이미지 인식 연구는 컴퓨터가 객체를 식별하도록 훈련하는 데 도움을 주었다. 이번 새로운 노력은 한 걸음 더 나아간다: 단순히 보는 것을 넘어 공간에 대해 추론하는 것이다. 세계 모델은 일종의 내부 물리 엔진처럼 작동하여 AI가 현실 세계에서 모든 행동을 시도하지 않고도 결과를 예측할 수 있게 한다.
앞으로의 과제
신뢰할 수 있는 세계 모델을 구축하는 것은 어렵다. 실제 환경은 복잡하다. 조명이 변하고, 물체가 움직이며, 사람들은 예측 불가능하게 행동한다. Li의 프레임워크는 이러한 혼란을 무너지지 않고 처리해야 한다. 계산 비용도 높다—모든 결정에 대해 상세한 시뮬레이션을 실행하려면 상당한 처리 능력이 필요하다.
연구원은 아직 대규모 테스트 결과를 발표하지 않았다. 이 프레임워크는 최근 논문에서 설명되었지만, 실제 테스트는 실험실 밖에서 작동하는지 여부일 것이다. 즉석에서 세계 모델을 구축하고 사용할 수 있는 로봇은 대부분 사전 프로그래밍된 규칙이나 레이블이 지정된 대규모 데이터 세트에 의존하는 오늘날의 시스템에 비해 큰 도약을 의미할 것이다.
다른 연구소들도 비슷한 방향으로 나아가고 있다. DeepMind, OpenAI, 그리고 소수의 대학 연구 그룹이 모두 세계 모델 아이디어를 제안했다. Li의 버전은 사람이 붐비는 방을 아무와도 부딪히지 않고 걸어가는 데 사용하는 종류의 이해인 공간 추론에 초점을 맞춘 점에서 두드러진다.
프레임워크가 시뮬레이션을 넘어 지저분하고 역동적인 환경으로 확장될 수 있을지는 열린 질문이다. Li의 팀은 지금 그 작업을 진행 중일 가능성이 높지만, 작동하는 프로토타입에 대한 일정은 제시되지 않았다.




