AI Sparkup

복잡한 AI 세상을 읽는 힘

AI 업계의 숨겨진 진실: LLM은 생각보다 훨씬 저렴하다

AI 붐이 시작된 이후, 대규모 언어모델(LLM)의 운영 비용이 매우 비싸다는 인식이 널리 퍼져 있습니다. 이러한 오해는 AI 기업들의 수익성에 대한 회의적인 시각과 AI 비즈니스 모델에 대한 근시안적 분석으로 이어지고 있습니다. 하지만 최근 분석에 따르면, LLM 추론 비용은 우리가 생각하는 것보다 훨씬 저렴하며, 더 중요한 것은 지속적으로 더 저렴해지고 있다는 점입니다.

오해의 시작: 초기 높은 추론 비용

AI 붐 초기, LLM 추론 비용은 실제로 매우 높았습니다. 이 때문에 많은 사람들이 LLM 운영이 비싸다는 인상을 갖게 되었고, 이러한 인식이 지금까지 이어지고 있습니다. 하지만 추론 비용은 모델 성능이 향상되는 속도보다도 더 빠르게 감소했습니다.

문제는 누구도 어떤 기술이 2년 만에 1000배 저렴해질 것이라고 예상하지 못했다는 점입니다. 이런 급격한 변화는 일반적으로 일어나지 않기 때문에 직관적으로 이해하기 어렵습니다. 게다가 “백만 토큰당 달러” 형태의 일반적인 가격 모델은 비용을 시각적으로 파악하기 매우 어렵게 만듭니다.

웹 검색과 LLM API 비용 직접 비교

LLM의 경제성을 이해하기 위해, 우리에게 친숙한 웹 검색과 직접 비교해보겠습니다. 이는 같은 영역에 있고 모든 사람이 사용하지만 직접 비용을 지불하지 않는 서비스이기 때문입니다.

웹 검색 API 가격

2025년 5월 2일 기준, 자체 웹 검색 인프라를 운영하는 회사들의 공개 API 가격은 다음과 같습니다:

  • Google의 Gemini API: “Google Search와의 그라운딩” 기능이 1,000회 쿼리당 35달러
  • Bing Search API: 가장 저렴한 티어에서 1,000회 쿼리당 15달러
  • Brave Search API: 가장 저렴한 티어에서 1,000회 검색당 5달러

검색 엔진 간 가격 차이가 있지만 극단적으로 크지는 않으며, 더 높은 품질을 제공한다고 예상되는 엔진일수록 더 높은 가격을 책정하고 있습니다.

LLM API 가격 분석

LLM과 웹 검색을 공정하게 비교하려면 두 가지 숫자가 필요합니다:

  1. 쿼리당 출력되는 토큰 수
  2. 토큰당 가격

실제 검색 히스토리에서 몇 가지 쿼리를 선택해 Gemini 2.5 Flash로 테스트한 결과:

  • “LLM이라는 용어가 언제 처음 사용되었나?” → 361토큰, 2.5초
  • “최고의 JavaScript 게임 엔진은?” → 1,145토큰, 7.6초
  • “유럽의 일반적인 기내 수하물 크기 제한은?” → 506토큰, 3.4초
  • “역사상 가장 큰 정전 사고 10건을 나열하라” → 583토큰, 3.7초

500-1,000토큰 범위가 합리적인 추정치로 보입니다.

LLM과 웹 검색 API 비용 비교
출처: Unsplash

주요 LLM 모델의 토큰당 가격 (2025년 5월 2일 기준)

모델백만 토큰당 가격
Gemma 3 27B$0.20
Qwen3 30B A3B$0.30
Gemini 2.0 Flash$0.40
GPT-4.1 nano$0.40
Gemini 2.5 Flash Preview$0.60
Deepseek V3$1.10
GPT-4.1 mini$1.60
Claude 3.5 Haiku$4.00
GPT-4.1$8.00
Claude 3.7 Sonnet$15.00
o3$40.00

평균 쿼리가 1,000토큰을 사용한다고 가정하면, 이 가격들은 1,000회 검색 쿼리 가격과 직접 비교할 수 있습니다.

결과는 놀랍습니다. 스펙트럼의 저가형 모델들은 가장 저렴한 검색 API보다도 최소 한 자릿수 이상 저렴합니다. 심지어 저가형 모델들도 상당히 뛰어난 성능을 보여줍니다. 고가형 모델조차 검색 가격의 최고 범위와 비슷한 수준입니다. 중간 범위에서 비교해보면, Bing Search 대 Gemini 2.5 Flash 비교에서 LLM이 1/25 가격에 제공됩니다.

일반적인 반박에 대한 답변

“LLM API 가격이 시장 점유율 확보를 위해 보조금을 받는 것 아닌가?”

여러 이유로 그렇지 않다고 봅니다. 첫째, API 시장 점유율을 얻기 위해 지속 불가능한 저가 정책을 쓸 동기가 크지 않습니다. 장기적인 락인이 없고 더 나은 모델이 매주 출시되기 때문입니다.

둘째, 일부 모델들은 오픈 웨이트로 출시되어 제3자 제공업체들이 API 접근을 제공하고 있는데, 이들은 추론을 보조금할 이유가 없습니다. 이러한 제3자 호스팅 API의 가격은 자체 호스팅 API와 경쟁력이 있어 보입니다.

셋째, Deepseek은 2025년 2월에 R1 API 가격이 GPU 비용을 고려했을 때 약 80%의 마진을 갖는다고 실제 수치를 공개했습니다.

“검색 API는 인덱스 구축과 업데이트 비용을 포함하지만, LLM은 추론 비용만 고려한다”

이는 사실일 가능성이 높습니다. 하지만 인기 있는 모델의 경우 그 효과가 그리 크지 않을 것입니다. 유출된 OpenAI 재무제표에 따르면 연간 추론에 40억 달러, 훈련에 30억 달러를 지출한다고 합니다. 추론 볼륨의 급속한 성장(Google은 최근 작년 대비 토큰 볼륨이 50배 증가했다고 발표)을 고려하면 훈련 비용은 훨씬 효과적으로 분산되고 있습니다.

경제학적 함의와 미래 전망

AI 기업의 실제 재정 상황

많은 사람들이 낮은 가격이 AI 기업들이 모델 훈련 비용을 회수하기 불가능하다는 논거를 제시합니다. 하지만 실제로는 비용이 내려감에 따라 가격도 내려가고, 새로운 사용 사례가 가능해지면서 수요가 증가하고 있습니다.

프론티어 AI 연구소들의 재정 상황은 일부 전문가들이 믿는 것보다 훨씬 좋습니다. 이들이 손실을 보는 이유는 수익성에 대한 압박이 없고 소비자 트래픽을 아직 적극적으로 수익화하려 하지 않기 때문입니다.

광고 모델의 실현 가능성

단위 비용이 매우 낮다는 점을 고려하면, 광고는 실행 가능할 뿐만 아니라 수익성이 높을 것입니다. 보고된 수치가 정확하다면, OpenAI는 5억 MAU를 보유하고 있으며, 수지를 맞추려면 이 무료 사용자들을 연간 평균 10달러, 즉 월 1달러로 수익화하기만 하면 됩니다. 이 정도의 ARPU는 이런 인기 서비스치고는 매우 낮은 수준입니다.

AI 기술 발전 그래프
출처: Unsplash

진짜 도전: AI 에이전트 시대의 백엔드 서비스

실제 비용 문제는 LLM 자체가 아니라 AI 에이전트가 접근하려는 모든 백엔드 서비스에서 발생할 것입니다. AI 실행은 이미 저렴하고 계속 더 저렴해질 것이며, 최종 사용자가 상호작용하는 부분이므로 항상 어떤 형태로든 수익화 모델을 가질 것입니다.

하지만 동의 없이 AI 백엔드로 전환된 최종 사용자 서비스들은 그렇지 않습니다. 예를 들어, 제가 좋아하는 밴드가 우리 동네에서 공연할 때마다 콘서트 티켓을 예약하는 AI는 제3자 백엔드(티켓 사이트 스크래핑 등)에게는 엄청나게 비쌀 것입니다. 이런 사이트들은 비용에 대한 보상을 받지 못하면서 실제 수익원은 제거당하게 됩니다.

혁신적 최적화 기술들

최근 연구들은 LLM 추론 비용을 더욱 줄이는 다양한 기술들을 제시하고 있습니다:

수학적 모델링을 통한 최적화: 최신 연구에 따르면 LLM 아키텍처를 고려한 이론적 모델을 통해 비용 구조, 지연시간/비용 트레이드오프, 최적 클러스터 크기, 최적 배치를 추정할 수 있습니다.

첫 번째 원리에서의 경제학 분석: 특정 모델(예: LLama 3.3 70B)에 대한 상세한 토큰당 비용 계산을 통해 GPU 비용, 메모리 대역폭, 배치 크기가 전체 경제성에 미치는 영향을 정확히 분석할 수 있습니다.

네트워크 효과와 스케일의 경제: 더 많은 사용자가 같은 모델을 사용할수록 단위당 비용이 급격히 감소하는 네트워크 효과가 나타나고 있습니다.

결론: 저렴한 AI 시대의 도래

데이터가 명확히 보여주는 것은 AI 실행 자체가 너무 비싸서 문제가 되는 일은 일어나지 않을 것이라는 점입니다. 대신 우리는 AI가 저렴하고 접근 가능한 시대로 접어들고 있으며, 이는 완전히 새로운 종류의 기회와 도전을 만들어낼 것입니다.

이런 변화는 AI 산업의 미래에 대한 우리의 이해를 근본적으로 바꿔야 함을 의미합니다. 비용이 장벽이 아니라면, 정말 중요한 것은 어떤 새로운 애플리케이션과 비즈니스 모델이 가능해질 것인가 하는 점입니다. AI의 미래는 비용 문제가 아니라 창의성과 혁신의 문제가 될 것입니다.


참고자료:

Comments