AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Street View로 AI 훈련 세계를 만든다, Google Genie의 진짜 노림수

구글이 20년 동안 쌓아온 Street View 데이터베이스가 AI 훈련장으로 변하고 있습니다. 소비자 기능처럼 포장됐지만, 그 안에는 에이전트와 로봇을 위한 더 큰 그림이 있습니다.

사진 출처: Google Blog

Google DeepMind가 5월 19일 Google I/O 2026에서 Project Genie에 Street View 연동 기능을 추가했습니다. 실제 장소를 기반으로 인터랙티브한 AI 세계를 생성하는 기능으로, Google AI Ultra 구독자를 대상으로 글로벌 롤아웃이 시작됐습니다.

출처: Simulate real-world places with Project Genie and Street View – Google Blog

Project Genie가 뭔가요?

Project Genie는 텍스트나 이미지를 입력하면 걸어다닐 수 있는 인터랙티브 세계를 실시간으로 생성하는 Google DeepMind의 범용 세계 모델(world model)입니다. 지난해 8월 Genie 3가 공개됐고, 올해 1월부터 Google AI Ultra 구독자에게 순차적으로 열렸습니다.

단순한 이미지 생성과 다른 점은 ‘공간적 연속성’입니다. 360도로 돌아봐도 AI가 주변 환경을 기억하고 일관되게 유지합니다. 그 위에 새 세계를 덧씌우는 방식이죠.

Street View 연동이 추가하는 것

이번 업데이트의 핵심은 실제 장소를 시작점으로 삼을 수 있다는 겁니다. 사용자는 지도에 핀을 꽂고, “Ocean World”나 “Stone Age” 같은 스타일을 고른 뒤 캐릭터를 설명하면, Genie가 그 장소에 기반한 세계를 만들어냅니다. 골든게이트 브릿지를 바닷속에서 탐험하거나, 포트워스 목장지대를 1920년대 흑백 필름 스타일로 걸어볼 수 있는 식입니다.

이 기능은 “Maps Imagery Grounding”이라는 인터페이스를 통해 구현됩니다. 개발자들이 이미 Street View 데이터로 AI 비주얼을 만들 때 쓰던 기술과 같은 기반입니다.

소비자 기능 뒤에 있는 진짜 목적

발표의 중심에는 체험 기능이 있지만, Google이 실제로 주목하는 건 AI 에이전트와 로봇 훈련입니다.

DeepMind 연구원 Jack Parker-Holder는 TechCrunch와의 인터뷰에서 이렇게 설명했습니다. 런던에 새로 배치되는 로봇은 햇빛을 거의 경험하지 못합니다. Genie로 빅토리아 시대 주택가에 햇빛이 반사되는 장면을 시뮬레이션해두면, 실제 상황에서 로봇이 당황하지 않습니다. 특정 도시에 배치하기 전에 그 도시의 눈 내린 골목, 비 오는 광장을 미리 경험시킬 수도 있죠.

이미 두 가지 구체적인 활용이 진행 중입니다.

  1. Waymo 자율주행 훈련: Genie 3는 Waymo의 시뮬레이터 중 하나로 사용 중입니다. 토네이도, 야생동물 출현처럼 실제로 경험하기 어려운 극단적 상황을 시뮬레이션하는 데 씁니다. Street View 연동으로 이제 특정 실제 도로에서 이런 상황을 훈련시킬 수 있게 됩니다.
  2. SIMA 2 에이전트 훈련: DeepMind의 범용 에이전트 SIMA 2는 이미 Genie가 만든 세계에서 탐색하고 추론하는 훈련을 받고 있습니다.

기존 시뮬레이터와의 차이도 있습니다. Waymo의 자체 시뮬레이터는 차량 시점에만 국한됩니다. Genie는 사람, 로봇, 드론 등 다양한 에이전트 시점으로 시점을 바꿀 수 있어 훨씬 유연한 훈련 환경을 만들 수 있습니다.

데이터가 곧 경쟁 우위

이 기술의 진짜 장벽은 Street View 데이터 자체입니다. Google은 20년 동안 카메라를 장착한 차량과 트래커 백팩을 멘 개인들을 통해 110개국 7개 대륙에서 2,800억 장 이상의 이미지를 수집했습니다. 건물 내부, 수로, 오지 지역까지 포함됩니다. 어떤 경쟁자도 단기간에 복제할 수 없는 자산입니다.

지금 이 시점의 한계

아직 해결되지 않은 부분도 있습니다. 물리 법칙이 아직 시뮬레이션에 적용되지 않아, 선인장을 그냥 통과하거나 벽을 뚫고 가는 상황이 생깁니다. 현재 품질은 Google의 비디오 생성 모델 Veo에 비해 6~12개월 정도 뒤처져 있다고 Parker-Holder는 인정했습니다. 실제 장소 기반 기능은 현재 미국 지역만 지원합니다.

Google DeepMind 스스로도 이 기능을 “실험적 연구 프로토타입”으로 규정하고 있습니다. 세계 모델이 비디오 모델과 달리 물리적 인과관계까지 학습하려면 아직 갈 길이 남았습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다