구글은 Flash 모델을 늘 이렇게 설명했습니다. “Pro보다 빠르고 저렴하다.” 그런데 새로 나온 Gemini 3.5 Flash는 실제로 써보면 Pro보다 75% 더 비쌉니다.

구글이 Google I/O 2026에서 Gemini 3.5 시리즈를 공개하며 첫 번째 모델로 3.5 Flash를 출시했습니다. 에이전트 작업과 코딩에서 자사 최강 모델인 3.1 Pro를 앞선다고 발표했고, AI 벤치마크 분석 업체 Artificial Analysis의 사전 테스트에서도 대체로 그 주장이 확인됐습니다. 단, 비용 구조는 단가만 보면 설명이 안 됩니다.
출처: Gemini 3.5: frontier intelligence with action – Google Blog
“에이전트 전용 모델”이라는 게 뭔가요
기존 Flash 모델은 단일 질의에 빠르게 답하는 데 최적화됐습니다. 3.5 Flash는 설계 방향이 다릅니다. 수십 개의 단계에 걸쳐 계획하고, 도구를 쓰고, 결과를 반복 수정하는 장기(long-horizon) 에이전트 작업을 위해 만들어졌습니다.
구글의 에이전트 개발 플랫폼인 Antigravity와 함께 동작하도록 설계됐으며, 여러 서브에이전트를 병렬로 실행하는 방식을 지원합니다. 곧 출시될 Gemini 3.5 Pro는 전체 작업을 지휘하는 오케스트레이터 역할을 맡고, Flash는 그 아래에서 실제 작업을 처리하는 서브에이전트로 동작하는 투트랙 구도입니다.
벤치마크에서 확인된 것, 그리고 아닌 것
속도는 인상적입니다. 초당 280토큰 이상을 출력해 비슷한 지능 수준의 다른 모델들보다 약 70% 빠릅니다. Artificial Analysis 지능 지수에서는 55점으로, Grok 4.3(53점)과 Claude Sonnet 4.6(52점)을 앞섭니다.
에이전트 작업 평가(GDPval-AA)에서는 Elo 1,656을 기록해 Gemini 3.1 Pro(1,314)를 크게 앞섰고, GPT-5.4(1,674)에 근접했습니다. 멀티모달 벤치마크(MMMU-Pro)에서는 84%로 역대 최고점을 찍었는데, 텍스트·이미지 외에 영상과 음성 입력까지 지원하는 덕분입니다. Claude Opus 4.7, Grok 4.3, GPT-5.5는 이미지 입력만 지원합니다.
반면 코딩 벤치마크에서는 자사 3.1 Pro보다 10점 낮고, GPT-5.5나 Claude Opus 4.7에도 밀립니다. 에이전트 강화에 집중한 만큼 순수 코딩 성능에서는 기대를 밑돌았습니다.
Flash인데 왜 Pro보다 비싸졌나
토큰 단가는 입력 기준 백만 토큰당 $0.50에서 $1.50으로 3배 올랐습니다. 출력 단가도 $3.00에서 $9.00으로 동일하게 3배 인상됐습니다. 그래도 단가만 보면 Gemini 3.1 Pro($2.00/$12.00)보다는 저렴합니다.
문제는 에이전트 작업 특성에 있습니다. 3.5 Flash는 작업 하나를 처리하는 데 평균 49턴이 필요합니다. Claude Opus 4.7(45턴), GPT-5.4(40턴), Gemini 3.1 Pro(23턴)에 비해 현저히 많습니다. 턴이 쌓일수록 입력 토큰이 불어나고, 결국 실제 실행 비용은 Gemini 3 Flash 대비 5.5배, Gemini 3.1 Pro 대비 75% 더 비싸집니다.
이는 구글만의 현상이 아닙니다. Anthropic의 Opus 4.7도 이전 모델 대비 실질 비용이 30~40% 늘었고, OpenAI의 GPT-5.5도 50~90% 올랐습니다. 에이전트 AI 세대에서 “단가”는 점점 의미를 잃고 있고, “작업 하나당 총비용”이 더 현실적인 기준이 되고 있습니다.
챗봇 시대의 Flash, 에이전트 시대의 Flash
“빠르고 저렴한 Flash”라는 포지셔닝은 단일 질의에 빠르게 답하던 챗봇 시대에 맞게 설계된 것이었습니다. 3.5 Flash는 그 포지셔닝을 내려놓고 에이전트 성능을 최우선으로 선택했습니다. 속도는 여전히 최상위권이지만, 비용 구조는 복잡한 멀티스텝 작업에 맞게 완전히 바뀌었습니다.
환각률이 61%로 여전히 높고, 코딩 성능에 뚜렷한 약점이 있다는 점은 실제 도입 시 고려해야 할 부분입니다.
참고자료:

답글 남기기