로봇 팔이 토스터 레버를 누르는 장면을 상상해보세요. 그런데 이 동작을 로봇 학습 데이터 없이, 영상 생성 AI에게 “이 다음을 보여줘”라고 시켰더니 꽤 그럴듯하게 나왔습니다. 이 결과가 로봇 AI 연구자들의 주목을 받고 있습니다.

NVIDIA 시애틀 로보틱스 랩의 Moritz Reuss가 로봇 파운데이션 모델의 현 흐름을 분석한 글을 발표했습니다. 지난 수년간 로봇 AI의 주류였던 VLA(Vision-Language-Action 모델)가 언어-행동 간 연결의 벽에 부딪히는 사이, 영상 생성 모델을 뼈대로 삼는 WAM(World-Action Model)이 대안으로 급부상하고 있다는 내용입니다. 2026년 4월 실제 로봇 벤치마크에서 WAM 계열 모델이 VLA 최강자를 처음으로 제쳤습니다.
출처: Pretrained to Imagine, Fine-Tuned to Act: The Rise of World-Action Models – NVIDIA Technical Blog
VLA의 벽: 언어를 행동으로 옮기지 못하다
지금까지 로봇 AI의 주류 접근법은 VLA였습니다. GPT 같은 대형 언어-비전 모델(VLM)을 가져다가 로봇 동작 데이터로 추가 학습시키는 방식입니다. VLM이 인터넷 규모의 언어와 이미지를 이미 이해하고 있으니, 그 위에 행동만 얹으면 된다는 논리였죠.
문제는 언어와 물리적 행동 사이의 거리입니다. “빨간 컵을 집어”라는 지시를 이해하는 것과, 실제로 로봇 팔이 정확히 어떻게 움직여야 하는지를 아는 것은 전혀 다른 일입니다. 이 간극을 메우는 데 필요한 로봇 시연 데이터는 인터넷 텍스트와 비교도 안 될 만큼 적습니다. VLM의 언어 이해 능력이 뛰어날수록, 오히려 그 목표가 행동 학습과 충돌해 기존 능력이 무너지는 현상도 보고됩니다.
WAM: 먼저 상상하고, 그다음 행동한다
WAM의 발상은 다릅니다. 언어 모델 대신 영상 생성 모델을 출발점으로 삼습니다.
영상 생성 모델은 “손이 뻗어서 물체를 집는다”거나 “도구가 움직여 무언가를 민다”는 장면들을 수십억 개의 영상에서 이미 학습했습니다. 언어로 장면을 묘사하면 다음 프레임을 예측하는 능력도 있습니다. WAM은 이 능력을 로봇 제어에 연결하려는 시도입니다.
현재 WAM 연구는 크게 세 가지 방식으로 나뉩니다.
- 역방향 역학(Inverse Dynamics): 미래 영상을 먼저 생성한 뒤, “이 장면 변화를 만들려면 어떤 동작이 필요했을까?”를 역추적해 행동을 뽑아냅니다. LingBot-VA, DVA가 이 방식입니다.
- 공동 예측(Joint Prediction): 미래 영상과 행동 시퀀스를 동시에 예측합니다. DreamZero가 14B짜리 Wan 영상 모델을 기반으로 이 방식을 씁니다.
- 표현만 활용(Representation-Only): 추론 시 영상 생성 자체는 건너뛰고, 영상 모델이 학습한 내부 표현만 가져다 쓰는 방식입니다. Fast-WAM이 이 방식으로 추론 속도를 끌어올렸습니다.
영상 AI는 로봇 동작을 얼마나 알고 있을까
원문에서 저자가 직접 진행한 실험이 있습니다. 구글의 영상 생성 모델 Veo 3.1에게 로봇 팔이 있는 실제 실험 장면 사진 한 장을 주고, “로봇 팔이 토스터 레버를 누른 뒤 왼쪽 오렌지를 집어”라고만 시켜봤습니다.
Veo 3.1은 로봇 데이터로 학습된 적이 없는데도, 배경을 안정적으로 유지하면서 두 동작을 순서대로 그럴듯하게 생성했습니다. 물론 한계도 뚜렷했습니다. 레버를 완전히 누르지 못하거나, 원래 로봇의 핀치 그리퍼가 4개 손가락을 가진 손으로 바뀌어버렸죠. “로봇이 이런 상황에서 대략 이렇게 움직인다”는 감각은 갖고 있지만, 정밀한 제어를 보장하지는 못한다는 뜻입니다. WAM 파인튜닝은 바로 이 “대략적 상상력”을 “신뢰할 수 있는 제어”로 바꾸는 작업입니다.
벤치마크에서 VLA를 처음 앞선 WAM
2026년 4월 RoboArena 리더보드 스냅샷에서 DreamZero는 1750점을 기록했습니다. VLA 최강자인 Pi-0.5가 1622점이었으니, 의미 있는 차이입니다. 특히 DreamZero는 추가적인 대규모 크로스-임바디먼트 로봇 데이터 없이 DROID 데이터셋만으로 이 결과를 냈습니다.
다만 저자는 이것이 WAM의 우위를 증명한다고 보지 않습니다. 비교 가능한 조건의 대조 실험이 아직 부족하고, 벤치마크 자체의 한계도 있습니다.
높은 비용과 느린 속도라는 현실
WAM의 가장 큰 걸림돌은 실용성입니다.
훈련 비용 측면에서, 14B 짜리 영상 모델을 기반으로 WAM을 학습시키는 데 드는 연산량은 VLA 경량 학습 대비 약 7배 수준입니다. 영상 시퀀스가 VLA의 이미지+텍스트보다 토큰 수가 훨씬 많기 때문입니다.
추론 속도도 문제입니다. Fast-WAM 논문의 수치를 빌리면, 영상을 실제로 생성하는 WAM 방식은 액션 청크 하나당 590~800ms가 걸립니다. Pi-0.5가 약 190ms인 것과 비교하면 3~4배 느립니다. 실시간 제어가 필요한 로봇에게 이 차이는 큽니다.
두 길은 결국 합쳐진다
저자의 결론은 “VLA냐 WAM이냐”가 아닙니다. 두 방향이 하이브리드로 수렴할 가능성이 높다고 봅니다.
이미 그 신호들이 보입니다. Physical Intelligence의 Pi-0.7은 VLA 구조를 유지하면서도, BAGEL이라는 영상 생성 모델이 중간 목표 이미지를 만들어 행동 전문가(action expert)에게 넘기는 방식을 씁니다. Being-H0.7은 VLA와 WAM의 구성 요소를 모두 탑재한 하이브리드입니다. Motus, BagelVLA 같은 연구들도 언어 이해, 영상 생성, 행동 생성을 하나의 모델에서 처리하는 방향을 실험하고 있습니다.
WAM이 로봇 AI의 두 번째 주요 레시피로 자리 잡을 것이라는 점은 분명해 보입니다. 어떤 구체적인 설계 조합이 이길지, 그리고 VLA와 WAM의 경계가 언제쯤 무의미해질지는 지금 한창 진행 중인 연구들이 답을 써나가고 있습니다.

답글 남기기