AI가 이미지 속 작은 글씨나 먼 곳의 표지판을 놓쳤다면? 기존 모델은 그냥 추측할 수밖에 없었습니다. 한 번 보고 끝이었으니까요.

Google이 Gemini 3 Flash에 “Agentic Vision”이라는 새로운 기능을 추가했습니다. 이제 모델이 이미지를 수동적으로 바라보는 게 아니라, 능동적으로 확대하고 조작하며 탐색할 수 있게 됐죠. 코드 실행 기능을 켜면 벤치마크 성능이 5-10% 향상된다고 합니다.
출처: Introducing Agentic Vision in Gemini 3 Flash – Google
Think-Act-Observe 루프로 이미지 탐색
Agentic Vision은 이미지 이해를 세 단계 루프로 바꿨습니다.
Think(생각) 단계에서 모델은 사용자 질문과 이미지를 분석해 다단계 계획을 세웁니다. 그 다음 Act(행동) 단계에서 Python 코드를 생성하고 실행해 이미지를 크롭하거나 회전하고, 계산을 수행하거나 경계 상자를 세는 등의 작업을 합니다. 마지막으로 Observe(관찰) 단계에서 변형된 이미지를 컨텍스트 윈도우에 추가하고, 새로운 데이터를 바탕으로 최종 답변을 생성하죠.
예를 들어 고해상도 건축 도면을 분석할 때, 모델은 지붕 가장자리나 건물 섹션 같은 특정 부분을 크롭해서 각각 새 이미지로 분석합니다. 건축 도면 검증 플랫폼 PlanCheckSolver.com은 이 기능으로 정확도를 5% 개선했다고 밝혔습니다.
세 가지 활용 방식
1. 줌인과 세밀 검사
Gemini 3 Flash는 세밀한 디테일을 발견하면 암묵적으로 확대하도록 학습됐습니다. 미세한 일련번호나 작은 텍스트처럼 픽셀 수준의 정밀도가 필요한 경우 자동으로 해당 영역을 크롭해서 재검사하죠.
2. 이미지 주석 달기
모델이 단순히 본 것을 설명하는 게 아니라, 코드를 실행해 이미지에 직접 그림을 그릴 수 있습니다. Gemini 앱에서 손가락 개수를 세는 예시를 보면, 모델이 각 손가락에 경계 상자와 숫자 라벨을 그려 넣습니다. 이런 “시각적 스크래치패드” 방식으로 계산 실수를 방지하죠.
3. 시각적 수학과 플롯 생성
고밀도 테이블을 파싱하고 Python 코드를 실행해 시각화할 수 있습니다. 일반 LLM은 다단계 시각 연산에서 종종 환각을 일으키는데, Gemini 3 Flash는 계산을 결정론적 Python 환경으로 오프로드합니다. 데이터를 식별하고, 정규화 코드를 작성한 뒤, Matplotlib으로 전문적인 막대 차트를 생성하는 식이죠.
아직 명시적 프롬프트가 필요한 기능들
Google은 현재 모델이 작은 디테일을 확대하는 건 암묵적으로 잘 처리하지만, 이미지 회전이나 시각적 수학 같은 다른 기능들은 아직 명시적인 프롬프트가 필요하다고 밝혔습니다. 향후 업데이트에서 이런 동작들을 완전히 암묵적으로 만들 계획이라고 하네요.
또한 웹 검색과 역이미지 검색 같은 더 많은 도구를 추가하고, Flash 외의 다른 모델 크기로도 확장할 예정입니다. 현재는 OpenAI가 o3 모델에서 도입한 것과 유사한 개념이지만, Google은 이를 더 발전시키려는 계획을 가지고 있습니다.
Agentic Vision은 Gemini API를 통해 Google AI Studio와 Vertex AI에서 이용 가능하며, Gemini 앱에서도 롤아웃이 시작됐습니다. 모델 드롭다운에서 “Thinking”을 선택하면 사용할 수 있습니다.

답글 남기기