Gemini 2.5 Flash의 비용 대비 성능 비교 – 출처: Google 개발자 블로그
구글의 새로운 ‘생각하는’ AI 모델 출시
구글이 Gemini 2.5 Flash를 프리뷰 버전으로 출시했습니다. 이 모델은 기존의 인기 모델인 Gemini 2.0 Flash를 기반으로 하면서도 추론 능력을 크게 강화했습니다. 특히 주목할 점은 속도와 비용 효율성을 유지하면서 성능을 높였다는 것입니다.
Gemini 2.5 Flash는 구글의 첫 번째 “fully hybrid reasoning model(완전 하이브리드 추론 모델)”로, 개발자들이 모델의 “thinking(생각)” 기능을 켜거나 끌 수 있는 유연성을 제공합니다. 이는 AI 모델의 추론 과정을 제어할 수 있는 새로운 패러다임을 제시합니다.
‘Thinking’ 기능은 어떻게 작동할까?
기존 AI 모델들은 입력(프롬프트)을 받으면 즉시 출력을 생성하는 방식으로 작동했습니다. 반면 Gemini 2.5 Flash와 같은 “thinking” 모델은 즉시 응답하는 대신 프롬프트를 더 잘 이해하고, 복잡한 작업을 단계별로 분석하며, 응답을 계획하는 “생각” 과정을 수행할 수 있습니다.
이러한 접근 방식은 특히 수학 문제 해결이나 연구 질문 분석과 같이 여러 단계의 추론이 필요한 복잡한 작업에서 더 정확하고 포괄적인 답변을 제공합니다. 실제로 Gemini 2.5 Flash는 LMArena의 Hard Prompts 테스트에서 2.5 Pro에 이어 2위를 차지했습니다.
구글은 이 모델에 “thinking budget(생각 예산)” 설정 기능을 추가하여, 개발자가 모델이 생각 과정에서 생성할 수 있는 최대 토큰 수를 세밀하게 제어할 수 있게 했습니다. 예산이 높을수록 모델은 더 깊은 추론을 통해 품질을 향상시킬 수 있지만, 중요한 점은 프롬프트가 복잡한 추론을 필요로 하지 않는 경우 모델이 전체 예산을 사용하지 않는다는 것입니다.
생각 예산이 증가함에 따른 추론 품질 향상 – 출처: Google 개발자 블로그
실제 성능과 비용 효율성
Gemini 2.5 Flash는 LMArena 벤치마크에서 상위권에 랭크되어 있으며, ChatGPT-4o, Grok-3, GPT-4.5 Preview와 어깨를 나란히 하고 있습니다. 특히 주목할 만한 점은 이러한 최고 수준의 성능을 매우 경쟁력 있는 가격으로 제공한다는 것입니다.
가격 책정 방식은 다음과 같습니다:
- ‘Thinking’ 활성화: 입력 토큰 백만 개당 $0.15, 출력 토큰 백만 개당 $3.50
- ‘Thinking’ 비활성화: 출력 토큰이 백만 개당 $0.60으로 감소
비교를 위해, Gemini 2.0 Flash는 입력 토큰 백만 개당 $0.10, 출력 토큰 백만 개당 $0.40입니다.
이 가격 정책은 개발자에게 비용과 성능 사이의 균형을 맞출 수 있는 유연성을 제공합니다. 간단한 작업에서는 ‘thinking’을 비활성화하여 비용을 절감하고, 복잡한 추론이 필요한 작업에서는 ‘thinking’ 기능을 활성화하여 품질을 높일 수 있습니다.
실제 사용 사례와 응용
Gemini 2.5 Flash는 추론 수준에 따라 다양한 작업에 적용될 수 있습니다:
낮은 수준의 추론이 필요한 작업:
- 간단한 번역 (예: 스페인어로 “감사합니다”)
- 사실 기반 질문 (예: 캐나다의 주 개수)
중간 수준의 추론이 필요한 작업:
- 확률 계산 (예: 두 주사위를 굴렸을 때 합이 7이 될 확률)
- 일정 계획 최적화
높은 수준의 추론이 필요한 작업:
- 공학 계산 (예: 보의 최대 굽힘 응력 계산)
- 복잡한 프로그래밍 함수 작성 (예: 스프레드시트 셀 값 계산)
흥미로운 사례로, Simon Willison은 Gemini 2.5 Flash를 사용하여 SVG 이미지를 생성하는 실험을 진행했습니다. 그는 ‘thinking’ 설정을 다양하게 변경하면서 “자전거를 타는 펠리컨” 이미지를 생성해 보았습니다. 기본 설정, thinking 비활성화, 최대 thinking 예산 등 다양한 설정에서 모델의 성능과 출력을 비교했습니다.
Simon Willison의 Gemini 2.5 Flash 테스트 – 기본 thinking 설정으로 생성된 펠리컨 이미지 – 출처: Simon Willison’s Blog
특히 주목할 만한 점은 Gemini 2.5 Flash가 SVG 코드 작성에서 보여준 뛰어난 CSS 스타일과 코드 구조였습니다. 모델은 CSS 클래스 구조화, 적절한 주석 추가, 명확한 코드 조직화 등 높은 품질의 코드를 생성했습니다.
Thinking 기능을 비활성화(budget=0)했을 때 생성된 SVG 이미지 – 출처: Simon Willison’s Blog
최대 Thinking 예산(24576)으로 생성된 SVG 이미지 – 출처: Simon Willison’s Blog
AI의 발전 방향과 시사점
Gemini 2.5 Flash의 출시는 AI 모델이 단순히 빠른 응답에서 더 깊은 추론으로 발전하고 있음을 보여줍니다. 이는 AI가 더 복잡한 문제를 해결하고 인간의 사고 방식에 더 가까워지고 있음을 시사합니다.
특히 ‘생각하는’ 모델과 그 제어 가능성은 다음과 같은 의미를 갖습니다:
- 맞춤형 AI 경험: 개발자와 사용자는 작업의 복잡성과 필요에 따라 AI의 추론 깊이를 조절할 수 있습니다.
- 비용과 성능의 균형: ‘thinking budget’을 통해 비용과 성능 사이의 최적 지점을 찾을 수 있습니다.
- AI 사고 과정의 투명성: AI가 어떻게 결론에 도달했는지 이해하는 것이 더 쉬워집니다.
- 에이전트 시스템의 발전: 더 나은 추론 능력은 더 복잡한 AI 에이전트와 다중 에이전트 시스템의 발전을 촉진합니다.
결론
Gemini 2.5 Flash는 AI 기술의 발전 방향을 보여주는 중요한 이정표입니다. 추론 능력과 비용 효율성의 균형을 맞추고, 개발자에게 제어 가능성을 제공함으로써, 더 많은 사용자와 개발자가 고성능 AI 모델을 활용할 수 있게 되었습니다.
AI가 단순한 응답 생성 도구에서 깊은 사고와 추론이 가능한 도구로 발전함에 따라, 우리는 AI 응용 분야의 확장과 더불어 AI와 인간의 협업 방식의 변화를 기대할 수 있습니다.
현재 Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 API로 이용 가능하며, Gemini 앱에서도 사용할 수 있습니다. 구글은 이 모델을 계속 개선하여 조만간 정식 버전으로 출시할 계획이라고 밝혔습니다.
Comments