AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 메모리 병목을 3비트로 해결, 구글 TurboQuant 8배 속도 달성한 방법

32비트로 저장하던 데이터를 3.5비트로 줄이면서도 정확도는 그대로입니다. 게다가 파인튜닝도 필요 없습니다. 구글 리서치가 발표한 새 압축 알고리즘 TurboQuant의 실험 결과입니다.

사진 출처: Google Research Blog

구글 리서치가 벡터 양자화(데이터 압축) 알고리즘 TurboQuant와 이를 구성하는 두 핵심 기법(QJL, PolarQuant)을 공개했습니다. LLM의 핵심 병목 중 하나인 KV 캐시 메모리 문제를 이론적 하한에 가깝게 해결했다는 내용으로, ICLR 2026에 채택 예정입니다.

출처: TurboQuant: Redefining AI efficiency with extreme compression – Google Research Blog

KV 캐시, 왜 문제인가

LLM이 긴 텍스트를 처리할 때는 이미 계산한 정보를 KV 캐시(Key-Value Cache)에 저장해두고 재사용합니다. 일종의 ‘디지털 메모장’이죠. 문제는 이 캐시가 고차원 벡터로 가득 차면 메모리를 엄청나게 잡아먹는다는 점입니다. 긴 문서를 다루거나 대규모 서비스를 운영할수록 이 병목은 더 심해집니다.

기존 해법인 벡터 양자화는 이 고차원 벡터를 압축해서 저장하는 방식입니다. 그런데 여기에는 숨겨진 비용이 있었습니다. 압축할 때 발생하는 오차를 보정하기 위한 ‘양자화 상수’를 따로 계산하고 저장해야 해서, 압축으로 아낀 용량을 이 보정 데이터가 다시 잡아먹는 구조였습니다. 압축할수록 오히려 손해가 나는 아이러니한 상황입니다.

TurboQuant의 두 단계 해법

TurboQuant는 이 문제를 두 알고리즘을 조합해 해결합니다.

첫 번째 단계: PolarQuant

PolarQuant는 벡터를 저장하는 좌표계 자체를 바꿉니다. 기존 방식이 “동쪽으로 3블록, 북쪽으로 4블록”처럼 각 축의 거리로 위치를 표현했다면, PolarQuant는 “37도 방향으로 5블록”처럼 각도와 거리로 표현합니다. 극좌표계(polar coordinates)로의 변환이죠.

이 방식의 핵심은 각도 패턴이 예측 가능하고 고도로 집중되어 있다는 점입니다. 패턴을 미리 알고 있으니 경계를 계산하기 위한 별도의 정규화 단계가 필요 없고, 결국 추가 저장 공간(메모리 오버헤드)도 사라집니다.

두 번째 단계: QJL

PolarQuant 이후에도 아주 작은 오차가 남습니다. QJL(Quantized Johnson-Lindenstrauss)은 이 잔여 오차를 단 1비트로 처리합니다. 수학적 변환인 Johnson-Lindenstrauss Transform을 활용해 고차원 데이터를 +1 또는 -1의 부호 하나로 압축하는 방식입니다. 계산 비용이 거의 없으면서도, 내적(attention score) 계산에서 발생하는 편향을 수학적으로 제거합니다.

결과적으로 TurboQuant는 ‘정밀한 압축(PolarQuant) + 오차 보정(QJL)’의 두 단계로, 추가 저장 비용 없이 고품질 압축을 달성합니다.

실험 결과

구글 리서치는 Gemma와 Mistral 모델을 대상으로 LongBench, Needle In A Haystack 등 다양한 장문 처리 벤치마크에서 성능을 검증했습니다.

주요 결과는 다음과 같습니다:

  1. KV 캐시를 3.5비트로 압축해도 모델 정확도 변화 없음 (2.5비트에서도 미미한 저하 수준)
  2. KV 메모리 크기를 최소 6배 절감
  3. 4비트 TurboQuant 기준 H100 GPU에서 32비트 대비 최대 8배 빠른 처리 속도
  4. 파인튜닝이나 별도 학습 없이 즉시 적용 가능

벡터 검색 태스크에서도 기존 최고 수준의 방법(PQ, RabbiQ)보다 높은 정확도를 기록했으며, 기존 방식이 대용량 코드북과 데이터셋별 튜닝을 필요로 했던 것과 달리 TurboQuant는 어떤 데이터에도 적용 가능한 범용 방식입니다.

실용 적용 범위

구글 리서치는 TurboQuant가 Gemini 모델의 KV 캐시 병목 해소에 활용될 수 있다고 밝혔습니다. 더 나아가 벡터 검색 전반에도 적용 가능합니다. 현대의 AI 검색은 키워드가 아니라 의미의 유사성으로 수십억 개 벡터 중에서 가장 가까운 항목을 찾는 방식으로 작동하는데, TurboQuant는 이 인덱스 구축 시간을 사실상 0에 가깝게 줄이면서 검색 정확도는 유지합니다.

연구팀은 이 알고리즘들이 단순한 실용 최적화가 아니라 정보이론적 하한에 가까운 이론적 증명이 뒷받침된 기여라는 점을 강조합니다. 실제로 논문은 어떤 벡터 양자화 알고리즘도 넘기 어려운 이론적 하한을 증명하고, TurboQuant가 그 하한의 약 2.7배 이내로 근접함을 보였습니다. 세부 벤치마크 결과와 이론 증명은 원문 논문에서 확인할 수 있습니다.

참고자료: TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다