ChatGPT에게 질문 하나 던질 때마다 전기가 얼마나 쓰일까요? 클라우드 어딘가에서 GPU가 돌아가는 건 알지만, 구체적인 에너지 비용은 알기 어렵습니다. OpenAI도 Anthropic도 이 수치를 공개하지 않으니까요.

영국의 독립 개발자 Alex Bradbury가 오픈소스 벤치마크 데이터를 파고들어 LLM의 쿼리당 에너지 소비량을 정량화하는 시도를 했습니다. InferenceMAX라는 벤치마크 스위트의 실측 데이터를 분석해 DeepSeek R1, GPT-OSS-120B 같은 주요 모델들이 실제로 얼마나 전력을 소비하는지 와트시(Wh) 단위로 계산한 겁니다. 벤치마크 자체의 한계를 비판적으로 검토하면서도, AI 에너지 비용을 이해하는 첫걸음을 제시합니다.
출처: Per-query energy consumption of LLMs – Muxup
DeepSeek R1, 쿼리 하나에 PS5 게임 몇 분?
가장 눈에 띄는 건 671B 파라미터 규모의 DeepSeek R1 모델입니다. fp8 정밀도로 서빙할 때 워크로드에 따라 에너지 소비가 크게 달라지는데요.
8,000개 토큰을 입력하고 1,000개를 생성하는 경우(8k/1k) 쿼리당 0.96~3.74 Wh를 소비합니다. 이게 어느 정도냐면, PS5로 게임을 0.3~1.1분 하는 것과 비슷한 전력입니다. 가장 효율적인 건 엔비디아의 72개 GPU로 구성된 GB200 NVL72 클러스터였고, 가장 비효율적인 건 8개 GPU 구성이었죠.
반대로 1,000개를 입력하고 8,000개를 생성하는 경우(1k/8k)는 15~16.3 Wh로 급증합니다. PS5 게임 4.5~4.9분에 해당하는 전력이에요. 왜냐하면 입력 토큰을 처리하는 것(prefill)보다 출력 토큰을 생성하는 것(decode)이 훨씬 비싸기 때문입니다. 입력은 병렬 처리가 가능하지만, 출력은 한 토큰씩 순차적으로 생성해야 하거든요.
흥미로운 건 양자화의 효과입니다. 동일한 DeepSeek R1 모델을 fp4 정밀도로 서빙하면 8k/1k 워크로드에서 0.63~1.67 Wh로 떨어집니다. 원래 대비 30~60%나 에너지를 절감하는 셈이죠. 물론 정밀도를 낮추면 출력 품질에 영향을 줄 수 있지만, Kimi K2 같은 모델들이 “네이티브 int4″로 배포되는 이유가 바로 이런 효율성 때문입니다.
작은 모델은 당연히 훨씬 저렴합니다. 120B 파라미터의 GPT-OSS-120B는 fp4에서 8k/1k 워크로드를 0.11 Wh로 처리합니다. DeepSeek R1의 10분의 1 수준이죠. 1k/8k 워크로드도 0.49~0.61 Wh 정도로 가벼워요.
벤치마크의 함정들
Bradbury는 InferenceMAX 벤치마크의 결과를 그대로 받아들이지 않았습니다. 코드를 직접 파고들어 여러 문제점을 발견하고 이슈로 제기했어요.
가장 큰 문제는 벤치마크가 실제 상용 배포와 거리가 있다는 점입니다. 예를 들어 많은 설정이 max_model_len을 입력+출력 토큰 합에 약간의 여유만 더한 값으로 제한합니다. 즉 8k/1k 워크로드를 테스트한다면 컨텍스트 길이를 9,200 토큰 정도로만 설정하는 식이죠. 이건 메모리를 최소화해 벤치마크 점수를 높이기 위한 트릭인데, 실제로 OpenRouter에서 DeepSeek R1을 서비스하는 업체들은 대부분 128k 이상의 컨텍스트를 제공합니다.
또 다른 문제는 실제 입력/출력 길이가 광고된 것보다 짧다는 점입니다. random-range-ratio라는 파라미터 때문에 실제로는 타겟 길이의 평균 90%만 테스트됩니다. 8k 입력이라고 하지만 실제로는 평균 7,373개 토큰을 처리하는 거죠. 이것도 결과를 실제보다 낙관적으로 만듭니다.
벤치마크는 랜덤 토큰을 입력으로 사용하고 EOS(문장 끝) 토큰을 무시하도록 설정되어 있습니다. 이 때문에 실제 사용 패턴과 달리 반복적이고 예측 가능한 출력이 생성될 수 있고, 특히 멀티토큰 예측 같은 최적화가 비현실적으로 높은 성능을 보일 가능성이 있어요.
Bradbury는 총 7개의 이슈를 제기했고, 일부는 수정되었지만 근본적인 설정 문제는 여전히 남아 있습니다.
숫자는 완벽하지 않지만, 시작점은 된다
그렇다면 이 수치들을 믿을 수 있을까요? Bradbury 본인도 “아직 완전히 만족스럽지 않다”고 인정합니다. 벤치마크가 현실보다 과도하게 낙관적일 수 있고, 실제 API 제공업체는 이 수치의 50% 정도 효율만 달성할 수도 있죠.
그럼에도 이 작업은 중요한 출발점입니다. 지금까지 LLM의 에너지 소비는 완전히 불투명한 영역이었거든요. Google이나 Mistral이 발표한 수치들은 중간값(median) 쿼리에 대한 것일 뿐, 프롬프트 길이나 모델 상세가 공개되지 않아 다른 상황에 적용하기 어려웠습니다.
Bradbury는 자신이 직접 벤치마크를 돌리는 것도 고려 중입니다. 특히 DeepSeek V3.2처럼 선형 어텐션 메커니즘을 도입해 긴 컨텍스트에서도 효율적인 새 모델들을 테스트하고 싶어 하죠. 그는 4~8 GPU 구성에서 실제 상용 서비스 가능한 설정으로 테스트해, 워크로드에 따라 Wh/백만 토큰이 얼마나 달라지는지 측정하려 합니다.
이 수치들이 완벽하진 않지만, AI 사용의 실제 비용을 이해하는 첫 단계입니다. 본인의 API 청구서를 보면 몇 센트에 불과해 보이지만, 그 뒤에 숨은 에너지 비용을 가늠할 수 있게 해주죠. 그리고 사용량을 늘릴 때 환경 영향을 어떻게 평가할지에 대한 기준점도 제공합니다.
참고자료:
- InferenceMAX: Open Source Inference Benchmarking – SemiAnalysis
- InferenceMAX GitHub Repository – GitHub

답글 남기기