
지난 몇 년 동안 AI 업계는 자체적인 ‘무어의 법칙’을 믿어왔습니다. 매년 AI 모델의 성능은 향상되고 비용은 대폭 감소할 것이라는 확고한 믿음이었죠. 하지만 지난주 Google이 조용히 이런 트렌드를 깨뜨렸습니다.
Google이 인기 모델인 Gemini 2.5 Flash의 가격을 대폭 인상한 것입니다. 입력 토큰 가격은 100만 토큰당 0.15달러에서 0.30달러로 두 배 올랐고, 출력 토큰 가격은 0.60달러에서 2.50달러로 무려 4배 이상 뛰었습니다. 동시에 성능은 낮지만 더 저렴한 ‘Gemini 2.5 Flash Lite’라는 새로운 모델도 출시했습니다.
이는 주요 AI 서비스 제공업체가 기존 모델의 가격을 인상한 최초의 사례입니다. 단순한 가격 조정으로 보일 수 있지만, 이는 AI 업계의 중요한 전환점을 의미합니다. 더 이상 비용이 무한히 감소하는 시대는 끝났고, 현재 하드웨어와 소프트웨어 기술 수준에서 AI 추론 비용에는 명확한 ‘바닥선’이 존재한다는 신호입니다.
AI 업계의 무어의 법칙 신화
반도체 업계의 무어의 법칙이 “반도체 집적도가 18개월마다 두 배씩 증가한다”고 했듯이, AI 업계도 비슷한 믿음을 가지고 있었습니다. 새로운 모델이 출시될 때마다 더 뛰어난 성능을 더 저렴한 비용으로 제공할 것이라는 기대 말입니다.
실제로 지난 몇 년간 이런 패턴이 지속되었습니다. OpenAI의 GPT 시리즈, Google의 Gemini 시리즈, Anthropic의 Claude 시리즈 등 주요 AI 모델들은 세대가 바뀔 때마다 성능은 향상되고 비용은 감소하는 모습을 보여왔습니다.
하지만 Google의 이번 결정은 이런 무한 성장의 신화에 제동을 걸었습니다. 더 이상 기술 발전만으로는 비용을 무한히 줄일 수 없다는 현실적 한계에 도달했다는 의미입니다.
LLM 가격 책정의 숨겨진 복잡성

겉으로 보기에는 LLM 가격 책정이 단순해 보입니다. 입력 토큰과 출력 토큰당 고정 요금을 부과하는 것이죠. 하지만 실제로는 매우 복잡한 비용 구조를 단순화한 것일 뿐입니다.
LLM 서비스 제공업체의 실제 비용을 이해하려면 다음과 같은 요소들을 고려해야 합니다:
하드웨어 성능: NVIDIA H100, A100 같은 GPU/TPU의 원시 성능이 기본적인 처리 능력을 결정합니다.
모델 크기와 아키텍처: 모델이 클수록 더 많은 메모리와 계산 자원이 필요합니다.
추론 프레임워크: vLLM, TensorRT-LLM 같은 소프트웨어 스택의 효율성이 실제 처리 속도에 큰 영향을 미칩니다.
워크로드 형태: 가장 중요하면서도 오해받기 쉬운 변수입니다. 입력 토큰(prefill)과 출력 토큰(decode) 비율에 따라 비용이 크게 달라집니다.
이차 복잡도의 숨겨진 비용
AI 모델의 핵심인 어텐션 메커니즘은 이차 복잡도(O(n²))를 가집니다. 새로운 토큰을 생성할 때마다 모든 이전 토큰들과의 관계를 계산해야 하기 때문입니다. 즉, 시퀀스 길이가 증가하면 계산량이 제곱으로 증가합니다.
대부분의 일반적인 상품은 이런 방식으로 작동하지 않습니다. 주유소에서 1갤런을 사든 10갤런을 사든 갤런당 비용은 동일합니다. 하지만 LLM에서는 긴 텍스트를 처리할수록 기하급수적으로 비용이 증가합니다.
이는 교통 체증과 비슷한 현상입니다. 도로에 차가 너무 많으면 모든 차의 속도가 느려지고, 차 한 대가 추가될 때마다 전체 교통 흐름에 미치는 영향이 기하급수적으로 커집니다.
Google이 가격을 올린 진짜 이유
Google이 Gemini 2.5 Flash를 출시할 때는 빠르고 비용 효율적인 ‘워크호스’ 모델로 포지셔닝했습니다. 아마도 다음과 같은 가정을 했을 것입니다:
- 개발자들이 Flash를 어떤 용도로 사용할 것인가
- Flash에 대한 수요가 얼마나 될 것인가
하지만 이 두 가정 중 하나 또는 둘 다 빗나간 것으로 보입니다.
워크호스 모델은 주로 요약, 분류, 데이터 추출 같은 배치 작업에 탁월합니다. 이런 작업들은 대용량 문서를 입력으로 받고 상대적으로 짧은 결과를 출력하는 특징이 있습니다. 즉, 입력 토큰 비율이 높고 출력 토큰 비율이 낮습니다.
사용자는 입력과 출력 토큰에 대해 선형적인 가격을 지불하지만, 실제로는 대용량 문서 요약 같은 작업에서 계산량이 많은 입력 처리 단계가 더 균형 잡힌 애플리케이션과 동일한 비용으로 책정되어 있었습니다. Google은 이런 고입력-저출력 워크로드가 기존 가격으로는 수익성이 없다는 것을 깨달았을 것입니다.
게다가 배치 작업에 대한 예상보다 높은 수요는 처리량에 큰 영향을 미칩니다. 하드웨어 증설로 해결할 수 있지만, 이는 상당한 시간과 자본 투자가 필요합니다.
비용 바닥선의 도래
출처: Unsplash
Google의 가격 인상은 AI 추론 비용에 물리적, 경제적 법칙에 의해 결정되는 바닥선이 있다는 것을 보여줍니다. 더 이상 소프트웨어 업데이트나 약간 개선된 모델로 대폭적인 비용 절감을 기대할 수 없는 시대가 되었습니다.
하드웨어가 병목
LLM의 속도는 근본적으로 메모리 대역폭의 물리적 제약에 의해 제한됩니다. 페타바이트 규모의 모델 가중치를 순간적으로 이동시킬 수는 없습니다. 또한 수요 증가에 대응하기 위한 하드웨어 구매는 계속 증가하는 AI 모델 수요를 앞지르기 어려운 상황입니다.
모델 성능의 한계
주어진 모델 크기에서 성능이 점차 한계에 다다르고 있습니다. 새로운 훈련 데이터가 부족해지고 있고, 더 많은 데이터로 훈련해도 수익률이 감소하는 현상이 나타나고 있습니다.
에너지 비용의 현실
국제에너지기구(IEA)에 따르면, AI는 데이터센터의 전력 수요 증가를 이끄는 가장 중요한 요인이 될 것으로 예상됩니다. AI 최적화 데이터센터의 전력 수요는 4배 이상 증가할 것으로 전망됩니다. 이는 소프트웨어 업데이트로 해결할 수 없는 물리적 비용입니다.
새로운 현실에서의 전략
이런 변화는 업계 전반에 몇 가지 중요한 결과를 가져옵니다:
비용을 고정 제약으로 고려해야 할 때
가장 중요한 변화는 개발자들의 사고방식 전환입니다. 특정 수준의 AI 기능에 대한 비용이 이제 기본적인 바닥선에 도달했습니다. 오늘 너무 비싼 기능이 내일 자동으로 저렴해질 것이라고 기대할 수 없습니다. 비용 관리는 더 이상 단순한 최적화가 아니라 제품 로드맵에 처음부터 고려해야 할 핵심 아키텍처 결정입니다.
컴퓨팅 보조금 시대의 종료
Google의 조치는 예외가 아닌 선도적 지표일 가능성이 높습니다. 다른 제공업체들도 모델 사용 패턴에 대한 세밀한 데이터를 수집하면서 수익성 확보를 위한 유사한 조정을 할 것으로 예상됩니다.
배치 처리와 오픈소스의 경제적 가치 증대
독점 제공업체의 실시간 추론 비용에 확고한 바닥선이 있다면, 대안 아키텍처를 통한 상대적 절감 효과가 훨씬 커집니다.
배치 추론: 지연 시간이 중요하지 않은 작업의 경우 일괄 처리를 통해 GPU 활용률을 최대화하고 여유 용량을 활용할 수 있어 50-90% 이상의 대폭적인 비용 절감이 가능합니다.
오픈소스 모델: Qwen3, Llama 3.3 같은 오픈소스 모델들이 일반적인 작업에서 훨씬 저렴한 비용으로 동등하거나 더 나은 성능을 제공하는 경우가 많습니다. 벤더 종속성 없이 데이터 프라이버시에 대한 더 큰 제어권도 확보할 수 있습니다.
변화에 대응하는 지혜
Google의 Gemini 2.5 Flash 가격 인상은 단순한 비즈니스 결정을 넘어 전체 시장에 보내는 신호입니다. 무한히 감소하는 AI 비용에 대한 믿음이 경제적 현실의 벽에 부딪혔습니다. 이런 강력한 모델을 운영하는 데 드는 비용은 실제로 존재하며, 제공업체들은 더 이상 모든 유형의 워크로드에 대해 보조금을 지급할 여력이 없습니다.
새로운 시대에는 더 똑똑한 접근법이 필요합니다. 더 저렴한 모델을 기대하는 대신, 더 나은 아키텍처에서 해답을 찾아야 합니다. 즉각적인 응답이 필요하지 않은 대부분의 AI 작업에서는 비싼 실시간 API가 아니라 더 효율적인 패러다임이 답입니다.
배치 처리를 수용하고 비용 효율적인 오픈소스 모델의 힘을 활용함으로써, 기존 API로는 더 이상 실현 불가능한 방식으로 AI 이니셔티브를 계속 확장할 수 있습니다. 이는 단순한 비용 절감이 아니라 지속 가능한 AI 활용을 위한 전략적 선택입니다.
참고자료:
- The End of Moore’s Law for AI? Gemini Flash Offers a Warning
- AI is set to drive surging electricity demand from data centres – IEA
- How much electricity does AI consume? – The Verge
- Star Attention: Efficient LLM Inference over Long Sequences – arXiv
- Introducing Simple, Fast, and Scalable Batch LLM Inference – Databricks
Comments