AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Fei-Fei Li가 말하는 AI의 다음 10년: 언어를 넘어 공간 지능으로

ChatGPT에게 주차 방법을 물으면 완벽한 답변이 돌아옵니다. 하지만 실제로 좁은 공간에 차를 대는 건 AI가 아니라 여전히 우리 몫이죠. AI는 언어로 세상을 설명할 수는 있지만, 3차원 공간에서 물체가 어떻게 움직이는지는 이해하지 못합니다. ImageNet의 창시자이자 AI 분야의 거장 Fei-Fei Li가 이 문제의 해법으로 제시한 개념이 바로 ‘공간 지능(Spatial Intelligence)’입니다.

사진 출처: Fei-Fei Li Substack

Li 교수가 자신의 Substack에 발표한 이 글은 단순한 기술 논문이 아니라 AI 발전 방향에 대한 비전 선언문입니다. 그녀는 현재 LLM이 “어둠 속의 웅변가”라고 표현합니다. 말은 유창하지만 경험이 없고, 지식은 많지만 현실 세계에 발붙이지 못한 존재라는 뜻이죠. 그래서 자율주행 로봇은 여전히 먼 미래이고, AI가 과학 연구를 획기적으로 가속화하는 날도 아직 오지 않았습니다.

출처: From Words to Worlds: Spatial Intelligence is AI’s Next Frontier – Fei-Fei Li Substack

인간은 태어나면서부터 공간 지능을 배운다

공간 지능은 우리 일상 곳곳에 스며있습니다. 던져진 열쇠를 받을 때, 붐비는 길을 걸으며 사람들과 부딪히지 않을 때, 잠결에 눈도 안 뜨고 커피를 컵에 따를 때. 소방관은 무너지는 건물에서 연기를 뚫고 안전한 경로를 찾아내고, 아이들은 말을 배우기도 전에 놀이를 통해 세상을 이해합니다. 이 모든 게 자동으로, 직관적으로 일어나죠.

Li 교수는 공간 지능이 진화의 핵심 동력이었다고 말합니다. 동물들이 빛을 감지하고 질감을 느끼는 단순한 감각에서 시작해, 세대를 거듭하며 신경계가 발달했습니다. 그 신경계는 외부 세계를 해석하고 생존을 위해 행동을 조율했죠. 인식과 행동의 순환 고리가 지능 진화의 핵심이었고, 이것이 인간이라는 종을 만들어낸 토대가 됐습니다.

창의성도 마찬가지입니다. 고대 동굴 벽화부터 현대 영화, 게임까지, 스토리텔러들은 머릿속에서 세계를 만들고 다양한 시각 매체로 표현해왔습니다. 건축가는 존재하지 않는 공간을 걸어다니며 상상하고, 산업 디자이너는 물건이 인간의 몸과 어떻게 상호작용할지 시뮬레이션합니다. 에라토스테네스가 그림자 각도로 지구 둘레를 계산하고, Watson과 Crick이 금속판과 철사로 DNA 모형을 만들어 구조를 발견한 것도 모두 공간 지능 덕분이었습니다.

현재 AI의 한계: 거리도, 방향도, 물리 법칙도 모른다

최근 멀티모달 LLM은 사진을 분석하고 질문에 답하며, 놀라울 정도로 사실적인 이미지와 짧은 영상을 생성합니다. 하지만 솔직히 말하면 AI의 공간 능력은 인간 수준과 거리가 멉니다. 최첨단 모델도 거리, 방향, 크기를 추정하는 과제에서는 무작위 찍기보다 나을 게 없습니다. 물체를 새로운 각도에서 “머릿속으로” 회전시켜 재생성하는 것도 못하고, 미로를 탐색하거나 지름길을 인식하거나 기초 물리학을 예측하는 것도 불가능합니다. AI가 생성한 영상은 몇 초 후면 일관성을 잃고 붕괴됩니다.

현재 AI는 읽기, 쓰기, 데이터의 패턴 인식에서는 탁월하지만, 물리적 세계를 표현하거나 상호작용할 때는 근본적 한계를 드러냅니다. 우리의 세계관은 총체적입니다. 단순히 보는 것뿐 아니라 모든 것이 공간적으로 어떻게 연결되는지, 무엇을 의미하는지, 왜 중요한지를 이해하죠. 이를 상상, 추론, 창작, 상호작용으로 이해하는 능력이 공간 지능의 힘입니다. 이것 없이는 AI가 자율주행을 하거나, 가정과 병원에서 로봇을 움직이거나, 완전히 새로운 몰입형 학습 경험을 만들거나, 재료과학과 의학 발견을 가속화할 수 없습니다.

세계 모델: 공간 지능을 위한 새로운 접근

Li 교수는 해법으로 ‘세계 모델(World Models)’을 제시합니다. LLM보다 훨씬 야심 찬 시도죠. 세계 모델은 의미적으로, 물리적으로, 기하학적으로, 동역학적으로 복잡한 세계를 이해하고 추론하고 생성하고 상호작용할 수 있어야 합니다. 그녀는 세계 모델의 세 가지 핵심 능력을 정의합니다.

첫째, 일관된 세계 생성 능력. 세계 모델은 무한히 다양한 시뮬레이션 세계를 만들어낼 수 있어야 합니다. 텍스트나 이미지 지시를 따르면서도, 기하학적·물리적·동역학적으로 일관성을 유지해야 하죠. 현재 상태가 과거 상태와 자연스럽게 연결돼야 합니다. 예를 들어 방 안에 의자를 배치하면, 시간이 지나도 그 의자가 갑자기 사라지거나 공중에 떠 있으면 안 됩니다.

둘째, 다양한 입력 처리. 동물과 인간처럼, 세계 모델은 이미지, 영상, 깊이 맵, 텍스트 지시, 제스처, 행동 등 다양한 형태의 입력을 받아들여야 합니다. 부분적인 정보만 주어져도 가능한 한 완전한 세계 상태를 예측하거나 생성해야 하죠. 인간과 AI 에이전트 모두 모델과 소통할 수 있어야 합니다.

셋째, 미래 상태 예측. 행동이나 목표가 입력으로 들어오면, 세계 모델은 세계의 다음 상태를 출력해야 합니다. 이전 상태, 의도한 목표, 의미, 물리 법칙, 동역학적 행동과 모두 일치해야 하죠. 더 나아가 목표만 주어지면 다음 상태뿐 아니라 다음 행동까지 예측할 수 있어야 합니다.

이 도전의 규모는 AI가 지금까지 직면한 어떤 과제보다 큽니다. 언어는 인간 인지의 순수 생성 현상이지만, 세계는 훨씬 복잡한 규칙을 따릅니다. 중력은 운동을 지배하고, 원자 구조는 빛이 색과 밝기를 만드는 방식을 결정하며, 수많은 물리 법칙이 모든 상호작용을 제약합니다. 의미, 기하학, 동역학, 물리를 일관되게 조화시키려면 완전히 새로운 접근이 필요합니다.

World Labs의 Marble: 첫 번째 실제 구현

Li 교수는 Justin Johnson, Christoph Lassner, Ben Mildenhall과 함께 2024년 초 World Labs를 설립했습니다. 회사는 설립 1년 만에 2.3억 달러 투자를 유치하며 유니콘 기업이 됐고, Andreessen Horowitz를 비롯해 Marc Benioff, Geoffrey Hinton, Eric Schmidt 등 실리콘밸리 거물들이 투자자로 참여했습니다.

최근 World Labs는 제한된 사용자들에게 Marble이라는 플랫폼을 공개했습니다. Marble은 단일 이미지에서 완전히 탐색 가능한 3D 세계를 생성하는 최초의 세계 모델입니다. 핵심 기술은 Gaussian Splatting으로, 수백만 개의 3D 가우시안을 사용해 사실적인 장면을 실시간으로 렌더링합니다. 흥미로운 점은 원본 이미지 프레임 밖의 공간까지 ‘상상’해서 채워넣는다는 겁니다. 예를 들어 사무실 사진 한 장을 주면, 보이지 않던 회의실과 복도까지 생성해냅니다.

영화 제작자와 게임 디자이너는 예산이나 지리적 제약 없이 완전히 탐색 가능한 3D 세계를 신속하게 만들 수 있습니다. 기존 3D 디자인 소프트웨어의 복잡함 없이요. 건축가는 수개월의 설계 투자 전에 존재하지 않는 공간을 빠르게 시각화하고 걸어다닐 수 있습니다. 초기 사용자들은 몇 주 걸리던 작업을 몇 분 만에 완료한다고 보고합니다. 생성된 세계는 Gaussian Splat 파일로 내보내기가 가능해 게임 엔진이나 VR 플랫폼에서 바로 활용할 수 있습니다.

하지만 Marble은 시작일 뿐입니다. Li 교수는 진정한 공간 지능 세계 모델을 향한 첫걸음이라고 강조합니다. 로보틱스 분야에서는 세계 모델이 시뮬레이션 데이터를 생성해 로봇 학습을 확장하는 역할을 할 것입니다. Nvidia가 자율주행 시뮬레이션에 이미 비슷한 접근을 시도하고 있듯이, 현실과 시뮬레이션 사이 격차를 좁혀 수많은 상태, 상호작용, 환경에서 로봇을 훈련시킬 수 있죠. 과학 연구에서는 실험을 시뮬레이션하고, 가설을 병렬로 테스트하고, 인간이 접근할 수 없는 환경을 탐색할 수 있습니다. 의료 분야에서는 분자 상호작용을 모델링해 신약 개발을 가속화하고, 의료 영상에서 패턴을 찾아내 진단을 개선하며, 환자와 간병인을 지원하는 ambient 모니터링 시스템을 가능하게 합니다.

ImageNet 이후 Fei-Fei Li의 다음 도전

Li 교수는 AI가 인간 능력을 대체하는 게 아니라 증강해야 한다고 믿습니다. 극단적인 테크노유토피아와 종말론이 넘쳐나는 요즘, 그녀는 더 실용적인 관점을 고수합니다. AI는 사람이 개발하고, 사람이 사용하며, 사람이 관리합니다. 항상 사람의 주체성과 존엄성을 존중해야 하죠. AI의 마법은 우리의 능력을 확장하는 데 있습니다. 우리를 더 창의적이고, 연결되고, 생산적이고, 충만하게 만드는 것이요.

비트겐슈타인은 “내 언어의 한계가 내 세계의 한계를 의미한다”고 썼습니다. Li 교수는 철학자는 아니지만, 적어도 AI에게는 언어 이상의 것이 있다는 걸 압니다. 공간 지능은 언어 너머의 프론티어입니다. 상상, 인식, 행동을 연결하고, 기계가 진정으로 인간의 삶을 향상시킬 가능성을 여는 능력이죠. 헬스케어부터 창의성, 과학 발견부터 일상 지원까지.

거의 5억 년 전 자연이 최초의 공간 지능을 동물에게 부여한 이후, 우리는 기계에 같은 능력을 부여할 수 있는 세대가 됐습니다. 그리고 그 능력을 모든 곳의 사람들을 위해 활용할 특권을 누리고 있죠. ImageNet으로 현대 AI 시대를 연 Li 교수가 이제 공간 지능이라는 다음 도전에 나선 이유입니다. 진정으로 지능적인 기계의 꿈은 공간 지능 없이는 완성될 수 없으니까요.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다