LingBot-World: AI가 만든 '매트릭스'에 접속하세요

지금까지의 비디오 생성 AI(Sora, Runway 등)는 훌륭했지만, 치명적인 한계가 있었습니다. 우리는 그저 "지켜볼 수만" 있었죠. 하지만 이제 그 화면 안으로 걸어 들어갈 수 있다면 어떨까요?
Robbyant 팀(Ant Group)이 공개한 LingBot-World는 단순한 비디오 생성기가 아닙니다. 이것은 오픈 소스로 공개된 최초의 고성능 실시간 월드 모델(World Model)입니다.
사용자가 키보드(W, A, S, D)를 누르면, AI가 실시간으로 그에 맞는 세상을 그려냅니다. 마치 게임 엔진처럼요. 오늘 이 혁신적인 프로젝트를 뜯어봅니다.
"Dreamer"에서 "Simulator"로의 진화
기존 비디오 AI 모델들은 세상의 물리 법칙을 이해하지 못하고 픽셀의 통계적 패턴만 학습한 "몽상가(Dreamer)"였습니다. 하지만 LingBot-World는 인과관계와 상호작용을 이해하는 "시뮬레이터(Simulator)"를 지향합니다.
이 모델의 3가지 핵심 무기는 다음과 같습니다:
실시간 상호작용 (Playable)
키보드 입력에 따라 1초 미만의 지연 시간(Latency)으로 16fps 영상을 생성합니다. 그냥 영상을 만드는 게 아니라, 게임을 하는 것과 같습니다.
장기 기억 (Long-term Memory)
카메라를 돌렸다가 다시 원위치로 와도, 아까 있던 건물이 그대로 있습니다. 최대 10분 길이의 영상에서도 일관성을 유지합니다.
완전한 오픈 소스
Genie 3나 Mirage 2 같은 경쟁자들은 비공개지만, LingBot-World는 코드와 모델 가중치를 모두 공개했습니다.
어떻게 만들었나? (The Secret Sauce)
연구진은 이 "매트릭스"를 만들기 위해 Wan2.2 (14B) 모델을 기반으로 3단계 진화 과정을 거쳤습니다.
1단계: 데이터 엔진
실제 영상뿐만 아니라, Unreal Engine(UE)으로 합성한 데이터와 게임 플레이 데이터를 섞었습니다. 특히 "W, A, S, D" 입력과 카메라 움직임을 매핑하는 것이 핵심이었습니다.
2단계: MoE (Mixture-of-Experts)
'고노이즈 전문가'와 '저노이즈 전문가' 모델을 섞어, 큰 그림과 디테일을 동시에 잡았습니다.
3단계: Distillation (증류)
원래 무거운 확산(Diffusion) 모델을 실시간으로 돌리기 위해, 몇 단계만으로 추론 가능한 고속 모델로 압축했습니다.
"사라진 물건이 그대로 있다" (창발적 기억)
가장 소름 돋는 부분은 "창발적(Emergent) 3D 일관성"입니다. 논문의 실험 결과를 보면, 스톤헨지 같은 랜드마크를 보여주고 카메라를 60초 동안 다른 곳으로 돌렸다가 다시 돌아와도, 스톤헨지가 무너지지 않고 그대로 유지됩니다.
AI에게 명시적으로 3D 좌표를 알려주지 않았음에도, 수많은 비디오 데이터를 학습하며 "세상의 사물은 사라지지 않는다(Object Permanence)"는 개념을 스스로 터득한 것입니다.
사용 가능한 모델
한계와 미래
물론 아직 완벽하지 않습니다.
- 하드웨어: 8개 GPU 권장 (torchrun --nproc_per_node=8). 일반 소비자 GPU로는 어렵습니다.
- 상호작용의 한계: 걷고 둘러보는 건 잘하지만, 복잡한 물체를 집어 들거나 조작하는 정밀함은 아직 부족합니다.
하지만 LingBot-World는 "누구나 자신만의 가상 세계를 만들고 탐험할 수 있는 시대"를 열었습니다. 이 기술이 게임, 로봇 훈련, 그리고 콘텐츠 제작 방식을 어떻게 바꿀지 기대됩니다.
리소스
- 논문: Advancing Open-source World Models
- GitHub: https://github.com/robbyant/lingbot-world
- Hugging Face: lingbot-world-base-cam
주의: 이 모델은 엔터프라이즈급 GPU 환경(8x GPU)을 권장합니다.