AI가 드디어 지저분한 현실 세계를 이해하기 시작했습니다. 손으로 휘갈겨 쓴 18세기 장부, 62페이지짜리 정부 보고서, 초당 10프레임으로 쏟아지는 골프 스윙 영상까지. Google이 12월 5일 공개한 Gemini 3 Pro는 단순히 이미지를 “보는” 수준을 넘어 “이해하고 추론하는” AI로의 진화를 보여줍니다.

출처: Gemini 3 Pro: the frontier of vision AI – Google Blog
현실 세계의 복잡함을 다루는 문서 이해 능력
실제 문서는 교과서처럼 깔끔하지 않습니다. 손글씨가 섞여 있고, 표가 중첩되어 있고, 수식이 난무하죠. Gemini 3 Pro의 핵심은 이런 “지저분한 현실”을 처리하는 능력입니다.
가장 인상적인 기능은 ‘디렌더링(derendering)’입니다. 이미지나 PDF를 보고 그걸 만들어낸 원본 코드(HTML, LaTeX, Markdown)를 역추적하는 거죠. 예를 들어 18세기 알바니 상인의 손으로 쓴 복잡한 거래 장부를 정확한 표 형식으로 변환하거나, 수식이 빼곡한 이미지를 정확한 LaTeX 코드로 바꿉니다.
더 놀라운 건 추론 능력입니다. 62페이지짜리 미국 인구조사국의 “2022년 소득 보고서”를 주고 “Money Income과 Post-Tax Income의 지니계수 변화율을 비교하고, 차이가 생긴 이유와 최하위 소득층 점유율 변화를 설명하라”는 질문을 던지면, 여러 표와 그래프를 오가며 단계별로 추론해 답을 내놓습니다. 실제로 CharXiv Reasoning 벤치마크에서 80.5%를 기록해 인간 평균을 넘어섰어요.
로봇과 AR을 위한 공간·화면 이해
Gemini 3 Pro는 이미지 속 특정 위치를 픽셀 단위로 정확히 가리킬 수 있습니다. “이 어질러진 책상에서 쓰레기를 분류하는 계획을 세워봐”라고 물으면, 각 물건의 위치를 좌표로 파악하고 어떤 순서로 정리해야 할지 계획을 짜죠. 로봇 팔이 물건을 집거나, AR 글래스가 사용자 매뉴얼에 따라 “이 나사를 풀어”라고 안내할 때 필요한 바로 그 능력입니다.
화면 이해 능력도 뛰어납니다. 데스크톱이나 모바일 UI를 보고 어디를 클릭해야 할지 정확히 판단합니다. Google은 실제 데모에서 “각 프로모션 유형별 총 매출을 피벗 테이블로 새 시트에 정리하라”는 복잡한 작업을 화면을 보며 자동으로 수행하는 모습을 보여줬습니다. 반복 작업 자동화, QA 테스트, 사용자 온보딩에 실제로 쓸 수 있는 수준이에요.
비디오를 진짜로 이해하기 시작한 AI
비디오는 AI가 다루기 가장 어려운 데이터 형식입니다. 시간에 따라 변하고, 여러 감각 정보가 섞여 있고, 맥락이 복잡하니까요. Gemini 3 Pro는 세 가지 방식으로 이 문제를 풀었습니다.
첫째, 고프레임 처리입니다. 초당 10프레임으로 영상을 분석해 빠른 동작도 놓치지 않습니다. 골프 스윙처럼 순간적인 체중 이동과 자세 변화를 잡아내야 하는 경우에 필수적이죠.
둘째, ‘생각 모드(thinking mode)’로 인과관계를 추론합니다. 단순히 무슨 일이 일어났는지만 인식하는 게 아니라, 왜 그런 일이 발생했는지 시간의 흐름 속에서 원인과 결과를 따라갑니다.
셋째, 긴 영상을 코드로 바꿉니다. 튜토리얼 비디오를 보고 그 내용을 실제 작동하는 앱이나 구조화된 코드로 변환할 수 있어요. 지식을 추출해 즉시 실행 가능한 형태로 만드는 거죠.
실제로 쓸 수 있는 곳들
교육 분야에서는 다이어그램이 많은 수학·과학 문제에서 큰 도약을 보였습니다. 학생이 숙제를 사진으로 찍어 보내면, “어디서 틀렸는지 설명하지 말고 이미지에 직접 표시해줘”라는 요청에도 답할 수 있습니다. 실제로 학생이 푼 문제를 파란색으로, AI가 수정한 부분을 빨간색으로 표시해주는 방식이죠.
의료·생물의학 영상 분석에서도 최고 수준입니다. MedXpertQA-MM(전문가급 의료 추론 시험), VQA-RAD(방사선 영상 질의응답), MicroVQA(현미경 기반 생물학 연구) 같은 주요 벤치마크에서 최고 성능을 기록했어요.
법률과 금융 분야 전문가들도 주목하고 있습니다. 복잡한 계약서의 수정 이력(redline)을 이해하고 편집하는 능력이 특히 인상적이라는 평가입니다. 차트와 표가 가득한 보고서를 빠르게 분석할 수 있으니까요.
완벽하지는 않지만, 분명한 진전
기술 커뮤니티는 흥미로운 한계도 발견했습니다. Hacker News에서 화제가 된 “다섯 다리 개 테스트”가 대표적이에요. 다리가 다섯 개 달린 개 사진을 보여주고 “다리가 몇 개냐”고 물으면, 대부분의 AI 모델이 시각적 증거를 무시하고 “개는 네 다리”라는 학습된 패턴만 고집한다는 겁니다.
Gemini 3 Pro는 이 테스트에서 “부분 점수”를 받은 첫 모델이라고 합니다. 완벽하진 않지만 학습 데이터의 편향을 어느 정도 극복하기 시작했다는 의미죠. AI가 여전히 진정한 ‘시각적 추론’보다는 ‘정교한 패턴 매칭’에 의존한다는 것을 보여주지만, 동시에 분명한 진전이 일어나고 있습니다.
Gemini 3 Pro는 깔끔한 테스트 데이터가 아닌 지저분한 현실 세계를 다루기 시작했고, 단순 인식을 넘어 추론과 이해로 나아가고 있습니다. 문서 처리부터 로봇 제어, 비디오 분석까지 실제로 쓸 수 있는 응용 분야는 점점 넓어지고 있으니까요. Google AI Studio에서 무료로 테스트할 수 있으니, 직접 경험해보는 것도 좋겠습니다.
참고자료:
- Google Launches Gemini 3 Pro Vision: Advancing Multimodal AI in 2025 – WebProNews
- Gemini 3 Pro: Google’s Vision AI Breakthrough and the Reality Check from the Community – TechPlanet
- Gemini 3 Pro | Hacker News – Hacker News 커뮤니티 논의

답글 남기기