AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

GPU 1,192개를 213개로: 알리바바가 증명한 82% 절감의 비밀

알리바바 클라우드가 AI 모델 서빙에 필요한 GPU를 82%나 줄이는 데 성공했습니다. 단순한 실험실 수치가 아닙니다. 3개월간 실제 서비스 환경에서 1,192개의 GPU로 처리하던 작업을 213개로 해냈습니다. GPU 부족과 비용 상승에 시달리는 AI 업계에 새로운 돌파구가 될 수 있을까요?

Alibaba Cloud Aegaeon 시스템
알리바바 클라우드의 Aegaeon GPU 풀링 시스템 (출처: Alibaba Cloud)

핵심 포인트:

  • 82% GPU 절감의 실제 검증: 3개월 베타 테스트에서 1,192개 → 213개 GPU로 동일한 서비스 제공. 최대 72B 파라미터 모델까지 지원하며 실제 프로덕션 환경에서 입증된 수치
  • 토큰 레벨 가상화로 9배 성능 향상: 한 GPU가 최대 7개 모델을 동시 서빙. 모델 전환 지연시간 97% 단축으로 “goodput” 9배 증가
  • GPU 부족 시대의 소프트웨어 해법: 미국 수출 규제로 H20 칩만 사용 가능한 중국 환경에서 탄생. 하드웨어 추가 없이 소프트웨어 최적화만으로 리소스 효율 극대화

기존 방식의 치명적 비효율

클라우드 서비스는 수천 개의 AI 모델을 동시에 제공합니다. 문제는 소수 인기 모델에 요청이 집중된다는 점이죠. 알리바바 클라우드 연구팀의 분석 결과가 놀랍습니다. 전체 GPU의 17.7%가 단 1.35%의 요청만 처리하고 있었습니다.

전통적인 방식은 하나의 GPU를 하나의 모델에 고정 할당합니다. Qwen이나 DeepSeek 같은 인기 모델은 과부하에 시달리고, 나머지 모델들은 대부분의 시간을 대기 상태로 보냅니다. GPU는 비싼데 대부분 놀고 있는 셈입니다.

Aegaeon의 핵심: 토큰 단위 스케줄링

알리바바가 개발한 Aegaeon은 이 문제를 근본적으로 다르게 접근했습니다. GPU를 특정 모델에 고정하지 않고, 토큰 레벨에서 가상화했죠.

토큰은 AI가 처리하는 데이터의 기본 단위입니다. Aegaeon은 GPU가 토큰을 생성하는 중간에도 다른 모델로 전환할 수 있게 만들었습니다. 한 GPU가 A 모델의 토큰 몇 개를 생성하다가, 즉시 B 모델로 전환해 작업하고, 다시 C 모델로 넘어가는 식입니다.

토큰 레벨 GPU 가상화로 여러 모델이 하나의 GPU를 효율적으로 공유 (출처: Medium)

결과는 극적입니다. 기존 시스템이 한 GPU에 최대 2-3개 모델을 할당할 때, Aegaeon은 최대 7개까지 처리합니다. 모델 전환 지연시간은 97% 줄었습니다. 시스템 전체의 “goodput”(실질적인 출력)은 9배 증가했죠.

3개월 실전 테스트의 구체적 수치

ACM SOSP 2025에서 발표된 논문에 따르면, Aegaeon은 알리바바 클라우드의 Model Studio 마켓플레이스에서 3개월 이상 베타 테스트를 거쳤습니다. Model Studio는 Qwen 시리즈를 비롯한 다양한 파운데이션 모델을 제공하는 플랫폼입니다.

테스트 환경은 까다로웠습니다. 최대 72B 파라미터 규모의 대형 모델들을 수십 개 동시에 서빙해야 했죠. 사용된 GPU는 Nvidia H20입니다. 미국의 수출 규제로 중국에서 합법적으로 구할 수 있는 몇 안 되는 고성능 칩이죠.

기존 시스템으로는 1,192개의 H20 GPU가 필요했던 작업을 Aegaeon은 213개로 처리했습니다. 82% 절감입니다. 논문의 공동 저자인 알리바바 CTO 저우진런(Zhou Jingren)과 베이징대학교 연구팀은 “Aegaeon은 마켓플레이스에서 동시 LLM 워크로드 서빙과 관련된 과도한 비용을 밝힌 첫 연구”라고 밝혔습니다.

누구나 쓸 수 있을까?

한 가지 현실적인 질문이 남습니다. 알리바바 환경 밖에서도 이런 성과가 재현될까요?

논문은 네트워크 구성에 대해 구체적으로 밝히지 않았습니다. 알리바바는 자체 eRDMA(elastic RDMA) 네트워크를 보유하고 있고, GPU 서빙 스택을 수직 통합해 운영합니다. 이런 최적화된 환경이 82% 절감에 얼마나 기여했는지는 불분명합니다.

다른 클라우드 제공자나 기업이 동일한 결과를 얻으려면, 유사한 수준의 인프라 통합이 필요할 수 있습니다. 하지만 핵심 아이디어인 토큰 레벨 스케줄링은 범용적으로 적용 가능한 개념입니다. GPU 활용도를 높이는 방향 자체는 누구에게나 유효하죠.

Nvidia GPU의 효율적 활용은 AI 인프라 비용 절감의 핵심 과제 (출처: Yahoo Finance)

소프트웨어가 만든 돌파구

이번 연구가 흥미로운 건 배경입니다. 중국 기업들은 미국의 수출 규제로 최신 GPU 확보가 어렵습니다. 하드웨어 제약을 소프트웨어 혁신으로 돌파한 사례죠.

GPU를 더 사지 못한다면? 지금 가진 GPU를 더 똑똑하게 써야 합니다. Aegaeon은 바로 그 질문에서 시작된 프로젝트입니다. AI 인프라 비용이 치솟는 지금, 하드웨어 추가가 아닌 활용도 개선으로 해결책을 찾는 접근법은 모두에게 의미가 있습니다.

클라우드 제공자들은 이미 GPU 풀링 기술에 주목하고 있습니다. 알리바바의 82% 절감 사례는 이 방향이 실제로 얼마나 큰 효과를 낼 수 있는지 보여준 첫 대규모 검증입니다. GPU 비용을 줄이려는 AI 기업들에게 새로운 선택지가 생긴 셈이죠.


참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다