AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

World Model 삼국지: Fei-Fei Li, LeCun, DeepMind가 만드는 세 가지 미래

AI가 “세상 전체를 모델링해야 한다”는 단계에 도달했습니다. 같은 시즌에 Fei-Fei Li의 World Labs가 Marble을 출시했고, Yann LeCun은 Meta를 떠나 World Model 스타트업을 준비한다는 보도가 나왔으며, DeepMind는 자사의 새 비디오 엔진 Genie 3를 World Model이라 부릅니다. 같은 용어, 하지만 세 가지 완전히 다른 것들이죠.

사진 출처: World Labs

AI 업계의 핵심 인물 세 명이 “World Model”이라는 같은 키워드로 전혀 다른 미래를 그리고 있습니다. 각자의 접근법이 AI의 다음 단계를 어떻게 바라보는지, 그리고 왜 같은 용어가 이렇게 다른 의미로 쓰이는지를 분석한 글입니다.

출처: Why Fei-Fei Li and Yann LeCun Are Both Betting on “World Models” – entropytown

World Labs의 Marble: 3D 자산 생성기

Fei-Fei Li의 World Labs가 출시한 Marble은 텍스트나 이미지를 입력하면 브라우저에서 걸어다닐 수 있는 3D 환경을 만들어줍니다. 핵심 기술은 Gaussian Splatting이라는 방식인데, 간단히 말하면 수백만 개의 색깔 있는 흐릿한 점들을 공간에 뿌려놓고 화면에 투영해서 사진처럼 보이게 만드는 겁니다. 기존 3D 모델링(삼각형 메시)보다 훨씬 빠르고 자연스럽죠.

Marble은 VR이나 게임 개발자들에게 유용한 도구입니다. “프롬프트 → 3D 환경 → Unity나 Three.js로 내보내기”라는 전체 파이프라인을 제공하거든요. 하지만 Hacker News에서는 즉시 지적이 나왔습니다. “이건 3D 자산 생성기지, 로봇의 뇌가 아니잖아요?”

실제로 Marble이 만드는 것은 사람이 보고 편집할 정적 환경입니다. 게임 엔진에 넣을 에셋이죠. Fei-Fei Li는 에세이에서 “로봇이 세상을 이해하고 행동하는” 미래를 이야기했지만, 현재 Marble은 그 여정의 첫걸음—매우 세련된 3D 뷰어—에 머물러 있습니다.

LeCun의 JEPA: 에이전트의 내부 예측 엔진

Yann LeCun이 말하는 World Model은 완전히 다른 차원입니다. 그가 2022년 논문 A Path Towards Autonomous Machine Intelligence에서 제시한 시스템은:

  • 감각 데이터를 받아들여 잠재 상태(latent state)로 압축합니다
  • 에이전트가 행동하면 그 상태가 어떻게 변할지 예측합니다
  • 이를 바탕으로 계획을 세우고 행동을 선택합니다

예쁜 그림을 출력할 필요가 없습니다. 이 모델의 역할은 에이전트가 “몇 걸음 앞을 생각하게” 만드는 거죠. JEPA(Joint Embedding Predictive Architecture)는 픽셀을 예측하는 대신 임베딩을 예측해서 더 효율적으로 작동합니다.

LeCun이 Meta를 떠나 World Model 스타트업을 준비한다는 보도가 나왔을 때, Hacker News 반응은 “또 다른 3D 뷰어네?”가 아니라 “Meta가 이 연구를 포기한 건가?”, “JEPA가 LLM을 이길 수 있을까?” 같은 근본적 질문들이었습니다.

World Labs가 프론트엔드 자산 생성기를 만든다면, LeCun은 백엔드 예측 뇌를 꿈꾸는 겁니다.

DeepMind의 Genie 3: 실시간 시뮬레이터

DeepMind의 Genie 3는 두 접근법의 중간 어딘가에 있습니다. 텍스트 프롬프트로 720p/24fps의 인터랙티브 비디오 환경을 생성하는데, 몇 분 동안 그 안에서 움직이고 상호작용할 수 있습니다. 비가 오게 할 수도 있고, 물체들은 프레임 사이에서도 계속 존재합니다.

Guardian는 이를 “AI 에이전트와 로봇이 실제 세계에 나가기 전에 가상 창고와 스키장에서 훈련하는” 도구로 묘사했습니다. Marble이 자산을 만들고 LeCun이 잠재 변수를 꿈꾼다면, Genie는 시뮬레이터를 만드는 거죠. 행동하고, 결과를 보고, 학습할 수 있는 온라인 환경입니다.

Hacker News에서 누군가 “Marble과 어떻게 다르냐”고 묻자 답변이 명쾌했습니다. “Genie는 실시간으로 사용자 입력에 반응하는 비디오를 생성합니다. Marble은 게임 엔진에서 렌더링하는 정적 자산을 만들죠.”

같은 단어, 세 가지 베팅

정리하면 “World Model”은 이제 최소 세 가지를 의미합니다:

  1. 인터페이스로서의 World Model (Marble): 말과 이미지를 사람이 편집할 수 있는 3D 환경으로 변환
  2. 시뮬레이터로서의 World Model (Genie): 에이전트가 시도하고 실패할 수 있는 연속적 비디오 세계
  3. 인지로서의 World Model (LeCun): 에이전트 내부의 예측 시스템, 잠재 변수와 전이 함수로 구성

Fei-Fei Li의 글은 세 번째 철학을 차용했지만 Marble은 아직 첫 번째에 머물러 있습니다. LeCun의 계획은 순수하게 세 번째이고, 언젠가 누군가 그 위에 두 번째를 만들기를 기대하죠. Genie는 두 번째와 세 번째 사이에 있으면서 가끔 마케팅으로 세 가지를 오갑니다.

Marble 데모만 보면 “World Model은 그냥 좋은 PR을 얹은 3D Gaussian Splatting”이라고 생각하기 쉽습니다. LeCun만 읽으면 언어 모델이 역사적 우회로였고 JEPA가 우리를 구원할 거라 믿게 되죠. DeepMind만 읽으면 시뮬레이션된 스키장이 끝도 없습니다.

진실은 이들 모두가 같은 모호한 야망의 서로 다른 부분을 만들고 있다는 겁니다: 다음 토큰 예측을 넘어, 기계에게 세상을 생각할 구조화된 방법을 주는 것. 한 그룹은 렌더링에서, 한 그룹은 물리에서, 한 그룹은 내부 코드에서 시작합니다.

용어가 정리될 때까지, “World Model” 헤드라인을 볼 때마다 세 가지를 물어보면 됩니다:

  1. 이건 사람이 볼 것, 에이전트가 훈련할 곳, 아니면 다이어그램 안의 상자인가?
  2. 정적 자산, 실시간 프레임, 아니면 주로 잠재 상태를 출력하는가?
  3. 가상 꽃병을 넘어뜨리면 시스템이 한 프레임 이상 기억하는가?

답이 “사람용”, “정적 자산”, “별로 아님”이면 아주 멋진 Gaussian Splat 뷰어를 보는 겁니다. “에이전트용”, “실시간”, “잠재 공간에서 그래”라면 LeCun이 계속 말해온 그 World Model—데모 문화에 아주 불편하게도 트윗 가능한 GIF 하나에 담기지 않는 바로 그것—을 보고 있는 거죠.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다