DeepMind CEO 하사비스가 그리는 AI의 미래: 월드 모델과 자율 에이전트의 시대

2025-12-09

﹒

3 minutes

AI가 영화 ‘파이트 클럽’의 한 장면을 보고 단순히 “캐릭터가 반지를 벗는다”고 설명하는 게 아니라, “일상을 포기한다는 철학적 상징”으로 해석한다면? 이게 바로 Google DeepMind CEO 데미스 하사비스가 말하는 차세대 AI의 모습입니다.

사진 출처: Axios – 구글 딥마인드 CEO 데미스 하사비스가 11월 4일 샌프란시스코에서 열린 액시오스 AI+ 서밋에서 연설하고 있다.

하사비스는 최근 Axios AI+ Summit에서 향후 AI 발전의 핵심 방향을 제시했습니다. AGI가 5~10년 내 도래할 것이라는 예측과 함께, 그 과정에서 중요한 기술적 이정표들을 구체적으로 언급했죠. 특히 향후 12개월 동안 “월드 모델”이 주요 프론티어가 될 것이라고 강조했습니다.

출처: Exclusive: “Transformative” AGI is on the horizon, DeepMind’s Hassabis says – Axios

멀티모달 모델: 보는 것을 ‘이해’하는 AI

첫 번째 핵심 방향은 멀티모달 능력의 질적 도약입니다. 현재 Gemini는 이미 이미지를 단순히 인식하는 수준을 넘어섰죠. 파이트 클럽 예시처럼, 시각적 요소의 맥락과 상징을 파악합니다.

이 능력이 실용적으로 어떻게 쓰이냐고요? Google의 최신 이미지 모델은 인포그래픽 같은 복잡한 시각 자료를 정확히 이해하고 생성할 수 있습니다. 이전에는 불가능했던 일이에요. 단순히 “고양이 사진”을 만드는 게 아니라, “2023년 글로벌 AI 투자 현황을 보여주는 차트”처럼 구조화된 정보를 시각화할 수 있다는 뜻입니다.

AI 에이전트: 복잡한 작업을 알아서 처리

두 번째 핵심은 자율 AI 에이전트의 본격화입니다. 하사비스는 1년 안에 복잡한 작업을 독립적으로 처리하는 에이전트가 등장할 거라고 예측했는데, 이건 사실 그가 2024년 5월에 했던 예측과 정확히 일치하는 타임라인이에요.

그가 말하는 에이전트는 단순히 질문에 답하는 챗봇이 아닙니다. 스스로 계획을 세우고, 목표를 정하고, 실행까지 하는 시스템이죠. 예를 들어 “다음 주 출장 준비해줘”라고 하면, 항공권 검색부터 호텔 예약, 일정 조율까지 알아서 처리하는 범용 어시스턴트를 상상하면 됩니다.

DeepMind는 이를 위해 과거 AlphaGo에서 쓰였던 강화학습 기술을 대규모 언어 모델과 결합하고 있습니다. 단순히 대화만 잘하는 게 아니라, 실제 세계에서 행동하고 결과를 만들어내는 AI로의 전환이에요.

월드 모델: 상호작용하는 3D 세계 생성

하사비스가 향후 12개월의 가장 중요한 프론티어로 꼽은 것이 바로 “월드 모델”입니다. Genie 3가 대표적인데요, 텍스트 프롬프트만으로 상호작용 가능한 3D 가상 세계를 실시간으로 생성합니다.

기존 비디오 생성 모델과 뭐가 다르냐고요? Genie 3는 단순히 영상을 만드는 게 아니라, 사용자가 실제로 탐험할 수 있는 일관된 환경을 만들어냅니다. 720p 해상도에 초당 24프레임으로, 몇 분 동안 시각적·물리적 일관성을 유지하죠. 카메라가 움직여도 배경의 나무나 건물이 제자리에 있고, 날씨를 바꾸거나 새로운 객체를 추가해도 세계가 무너지지 않습니다.

NVIDIA AI 디렉터 Jim Fan은 이를 “게임 엔진 2.0″이라고 불렀습니다. 언젠가 Unreal Engine의 모든 복잡성이 데이터 기반 AI 모델로 흡수될 거라는 거죠. 3D 에셋도, 씬 그래프도, 복잡한 셰이더도 필요 없이, 컨트롤러 입력만으로 픽셀이 직접 생성되는 세상입니다. 게임 개발이 결국 정교한 프롬프트 엔지니어링으로 수렴할 거라는 예측이에요.

AGI로 가는 징검다리

하사비스가 이 기술들을 단순한 기능 개선이 아닌 “AGI로 가는 핵심 단계”로 보는 이유가 있습니다. 월드 모델은 AI 에이전트를 훈련시킬 무한한 시뮬레이션 환경을 제공하거든요.

실제로 DeepMind는 Genie 3에서 자사의 SIMA 에이전트를 테스트하고 있습니다. 에이전트가 생성된 세계에서 자율적으로 작업을 수행하는데, 시뮬레이션은 에이전트의 목표를 모른 채 행동에만 반응합니다. 이런 환경에서 AI는 사전 프로그래밍된 규칙 없이도 복잡한 상황을 학습할 수 있죠.

DeepMind 연구자들의 최근 논문이 제시한 방향과도 일치합니다. 인간이 쓴 정적 데이터로 학습하는 대신, 시뮬레이션 세계에서 직접 경험하며 배우는 AI로의 전환이요. Genie 3 같은 모델이 바로 그 비전을 실현하는 도구인 셈입니다.

물론 한계는 있습니다. 현재는 상호작용이 몇 분으로 제한되고, 멀티 에이전트 시뮬레이션은 아직 불안정합니다. 하지만 방향성은 명확해 보입니다. 하사비스의 예측대로라면, 2026년은 AI가 단순히 대화하는 존재에서 세상을 이해하고 행동하는 존재로 진화하는 원년이 될지도 모르겠네요.

참고자료:

DeepMind CEO Demis Hassabis predicts three major AI trends for 2026 – THE DECODER
DeepMind CEO says AI agents for complex tasks coming in 1-2 years – THE DECODER (2024년 5월)
Google DeepMind’s Genie 3 creates interactive 3D worlds – THE DECODER

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

Join the conversation on Bluesky

AI Sparkup

DeepMind CEO 하사비스가 그리는 AI의 미래: 월드 모델과 자율 에이전트의 시대

멀티모달 모델: 보는 것을 ‘이해’하는 AI

AI 에이전트: 복잡한 작업을 알아서 처리

월드 모델: 상호작용하는 3D 세계 생성

AGI로 가는 징검다리

AI Sparkup 구독하기

Comments

Comments

답글 남기기 응답 취소

More posts

AI 에이전트 ROME, 몰래 암호화폐 채굴하다 보안 경고로 발각

Amazon이 Perplexity Comet을 막은 이유, “사용자 허락”만으론 부족했다

AI 에이전트가 내 사이트를 방문할 때, robots.txt부터 WebMCP까지 5가지 대응법

긴 컨텍스트 LLM의 숨겨진 함정, H100 동시 사용자 59명이 1명이 되는 이유