GPT, Claude, Gemini로 대표되는 거대 언어 모델(LLM)이 텍스트 이해의 한계에 부딪히면서, AI 업계는 물리 세계를 이해하고 시뮬레이션하는 ‘World Models’로 대규모 전환을 시작했습니다. OpenAI, Meta, Google DeepMind, Nvidia 등 주요 기업들이 앞다투어 투자하는 이 기술은 단순히 텍스트를 넘어 3D 공간, 물리 법칙, 실제 세계와의 상호작용을 가능하게 합니다.

LLM의 성공, 그리고 예상치 못한 정체
ChatGPT가 세상을 놀라게 한 지 불과 2년. LLM은 텍스트 이해와 생성에서 놀라운 성능을 보여줬습니다. 하지만 모델 크기를 키우고 데이터를 더 많이 넣는다고 계속 좋아지는 건 아니었어요.
업계에서는 이를 ‘Scaling Law의 정체’라고 부릅니다. 모델을 두 배로 키워도 성능은 예전만큼 오르지 않는 거죠. Meta의 AI 수석 과학자 Yann LeCun은 인도 IIT Delhi에서 열린 패널에서 이렇게 말했습니다. “단순히 LLM을 키우는 것만으로는 진정한 인간 수준의 지능에 도달할 수 없다.”
텍스트로만 세상을 배우는 AI의 맹점
LLM의 근본적인 문제는 뭘까요? 텍스트만으로 세상을 이해하려 한다는 겁니다.
생각해보세요. 아이가 공을 던지는 법을 배울 때 책을 읽고 배우나요? 직접 던져보고, 떨어지는 걸 보고, 중력을 체감하면서 배웁니다. 물리 법칙, 공간 관계, 인과관계 같은 건 경험으로 익히는 거죠.
Yann LeCun이 지적한 것도 바로 이겁니다. 텍스트는 인류가 비교적 최근에 발명한 도구예요. 수백만 년 동안 인간의 뇌는 시각, 촉각, 공간 감각 같은 물리적 경험을 통해 진화했습니다. 그런데 AI는 그걸 건너뛰고 책만 읽고 있는 셈이죠.
World Models – 새로운 돌파구의 등장
바로 여기서 World Models가 등장합니다. 간단히 말하면 “물리 세계를 이해하고 시뮬레이션할 수 있는 AI”입니다.
LLM이 텍스트 데이터로 학습했다면, World Models는 3D 공간 데이터, 물리적 상호작용, 시간에 따른 변화를 학습합니다. “공이 떨어진다”는 문장을 이해하는 게 아니라, 실제로 공이 어떻게 떨어지는지 물리 법칙을 이해하는 거예요.

주요 기업들의 대규모 투자 러시
Financial Times 보도에 따르면 주요 AI 기업들이 World Models에 집중적으로 투자하고 있습니다.
Meta의 AssetGen은 텍스트 프롬프트만으로 3D 가상 세계를 생성합니다. Meta Connect에서 공개된 이 기술은 누구나 VR 콘텐츠를 만들 수 있게 해줍니다. “중세 성이 있는 판타지 마을”이라고 입력하면 실제로 돌아다닐 수 있는 3D 공간이 만들어지는 거죠. 기존 영상 생성 AI들이 단순히 픽셀을 움직이는 것과 달리, AssetGen은 실제 물리 법칙을 이해하고 3D 공간을 구성합니다.
Google DeepMind의 Gemini Robotics 1.5는 더 직접적입니다. 물리 세계에서 실제로 작동하는 로봇 AI죠. 두 개의 모델이 협업합니다. Gemini Robotics-ER 1.5는 고차원적 추론과 계획을 담당하고, Gemini Robotics 1.5는 실제 동작을 실행합니다.
예를 들어 “내 위치를 기준으로 이 물건들을 쓰레기, 재활용, 음식물로 분류해줘”라고 하면 어떻게 될까요? 로봇은 먼저 구글 검색으로 해당 지역의 분리수거 규칙을 찾습니다. 그다음 눈앞의 물건들을 보고 분류한 뒤, 실제로 올바른 쓰레기통에 넣는 모든 과정을 수행합니다.
Nvidia는 Omniverse를 통해 물리 세계의 디지털 트윈을 만듭니다. 공장, 창고, 자율주행차가 실제로 배치되기 전에 가상 세계에서 미리 테스트하는 거죠. CEO 젠슨 황은 “물리 AI가 50조 달러 규모의 제조와 물류 산업에 혁신을 가져올 것”이라고 말합니다.
Niantic은 좀 특별합니다. 포켓몬 고를 9년간 운영하면서 전 세계 3천만 명의 플레이어들이 실제 장소를 스캔한 데이터를 모았어요. 현재 1천만 개 이상의 위치 데이터를 보유하고 있고, 매주 백만 건의 새로운 스캔을 받습니다. 이걸로 ‘Large Geospatial Model’을 만들고 있습니다. 교회 앞면만 봐도 뒷면이 어떻게 생겼을지 추측할 수 있는 AI죠.
Runway는 할리우드 스튜디오들과 협력해 World Models 기반 게임 환경을 만들고 있습니다. CEO Cristóbal Valenzuela는 “기존 비디오 생성 방식은 그냥 픽셀을 억지로 움직이는 거였다. World Models는 실제로 장면에서 무슨 일이 일어나는지 이해한다”고 설명합니다.
왜 지금일까?
이런 움직임이 지금 일어나는 데는 이유가 있습니다.
첫째, LLM의 한계가 명확해졌습니다. 모델 크기를 키우는 데 드는 비용은 기하급수적으로 늘어나는데 성능 개선은 점점 작아지고 있어요. 고품질 텍스트 데이터도 거의 바닥났습니다.
둘째, 데이터 수집 기술이 성숙했습니다. Niantic처럼 게임을 통해 실제 세계 데이터를 대규모로 모을 수 있게 됐죠. VR 기기, 자율주행차 센서, 스마트폰 카메라 등 3D 데이터를 수집할 수 있는 장치가 널려 있습니다.
셋째, 컴퓨팅 파워가 충분해졌습니다. Niantic은 현재 5천만 개 이상의 신경망을 훈련시켰는데, 총 150조 개의 파라미터를 최적화했습니다. 이런 규모의 계산이 가능해진 건 최근의 일입니다.
산업별 영향과 기회
World Models는 여러 산업을 바꿀 겁니다.
로보틱스는 가장 직접적인 수혜 분야입니다. 공장에서 일하는 로봇, 창고에서 물건을 나르는 로봇, 집안일을 돕는 가정용 로봇까지 모두 World Models의 혜택을 받을 수 있어요.
자율주행도 마찬가지입니다. 실제 도로에 나가기 전에 가상 세계에서 수만 가지 상황을 테스트할 수 있죠. 날씨, 시간대, 돌발 상황까지 모두 시뮬레이션 가능합니다.
건축과 도시 계획에서는 건물이 지어지기 전에 실제와 똑같은 가상 환경에서 사람들이 어떻게 움직이는지, 햇빛이 어떻게 들어오는지 미리 확인할 수 있습니다.
게임과 엔터테인먼트는 창작의 민주화를 경험할 겁니다. 전문 개발자 없이도 누구나 자신만의 3D 세계를 만들 수 있게 되는 거죠.
Meta의 Yann LeCun은 이런 비전이 실현되는 데 10년 정도 걸릴 거라고 봅니다. 하지만 그 여정은 이미 시작됐습니다.
AI는 이제 책을 읽는 단계를 넘어 세상을 직접 경험하고 이해하는 단계로 진입하고 있습니다. 텍스트에서 물리 세계로. 이해에서 상호작용으로. 이게 World Models가 열어가는 새로운 시대입니다.
참고자료:
- AI groups bet on world models in race for ‘superintelligence’ – Financial Times
- Big AI firms pump money into world models as LLM advances slow – Ars Technica
- AssetGen: Generating 3D Worlds With AI – Meta Engineering
- Gemini Robotics 1.5 brings AI agents into the physical world – Google DeepMind
- Building a Large Geospatial Model to Achieve Spatial Intelligence – Niantic Labs
- 생성형 피지컬 AI로 확장되는 NVIDIA Omniverse의 세계 – NVIDIA Blog Korea
Comments