GPU가 토큰 하나 만들 때 연산 능력의 1%만 쓴다, Cerebras가 노리는 그 낭비

H100은 초당 989조 번 연산합니다. LLM이 토큰을 생성하는 순간, 그 능력의 1%도 쓰이지 않습니다.

사진 출처: Artificial Intelligence Made Simple

AI 하드웨어 스타트업 Cerebras는 바로 이 낭비에 베팅했습니다. 지난 5월 13일 나스닥에 상장하면서 공모가 기준 시가총액 564억 달러를 기록했고, OpenAI와 200억 달러 규모의 인프라 계약까지 확보했습니다. 그 근거가 된 기술이 바로 저녁 접시 크기의 칩, WSE-3입니다.

출처: Cerebras: The $56.4 Billion IPO Challenging NVIDIA’s Memory Wall – Artificial Intelligence Made Simple

문제의 본질: 연산이 아니라 메모리

LLM 추론은 두 단계로 나뉩니다. 입력 프롬프트를 처리하는 프리필(prefill) 단계는 연산량이 많아 GPU가 제 역할을 합니다. 문제는 토큰을 한 글자씩 생성하는 디코드(decode) 단계입니다.

토큰 하나를 만들기 위해 GPU는 모델의 가중치 전체를 메모리에서 읽어와야 합니다. 그러나 수학 연산은 딱 한 번만 합니다. 바이트당 연산 비율이 1 FLOP/byte까지 떨어지는 거죠. H100의 설계 균형점은 295 FLOP/byte인데, 디코드는 그것의 300분의 1 수준에서 동작합니다. GPU 연산 유닛들은 데이터가 오기를 기다리며 대부분의 시간을 허비합니다.

NVIDIA도 이걸 알고 있습니다. H100의 메모리 대역폭은 3.35 TB/s, B200는 약 8 TB/s로 늘렸죠. 하지만 동시에 연산 능력도 함께 키우기 때문에 근본적인 불균형은 그대로입니다. 파이프를 넓혔지만 파이프를 아예 없애지는 못했습니다.

Cerebras의 답: 메모리와 연산을 붙여버리기

해법은 단순합니다. 메모리를 연산 코어 바로 옆에 두면 됩니다. 그러면 데이터가 먼 길을 올 필요가 없죠. 문제는 이걸 실제로 구현하는 게 지난 40년간 반도체 스타트업들의 무덤이었다는 겁니다.

1980년 Gene Amdahl은 2억 3천만 달러를 모아 웨이퍼 스케일 칩에 도전했다가 실패했습니다. 이후로도 여러 회사가 비슷한 시도를 했지만 결과는 늘 같았습니다. 제조 불량, 냉각 한계, 전력 공급 문제, 열 팽창 차이 — 이 네 가지 물리적 장벽이 항상 발목을 잡았습니다.

Cerebras는 이 다섯 가지 문제를 동시에 풀어냈습니다.

리티클 한계: 반도체 노광 장비는 한 번에 858mm² 면적만 찍을 수 있습니다. Cerebras는 웨이퍼를 다이싱(절단)하는 대신 경계선을 가로지르는 100만 개의 미세 금속선을 추가로 인쇄해 84개 구역을 하나의 연속 회로로 이었습니다.
제조 불량: 웨이퍼 하나에 약 46개의 불량이 생깁니다. Cerebras는 97만 개의 코어를 완전히 독립적으로 설계했습니다. 불량 코어는 컴파일러가 자동으로 우회하고, 나머지 90만 개가 작동합니다. 93%의 실리콘이 살아있는 셈입니다.
전력 공급: 28,750암페어를 수평으로 밀어넣으면 가장자리와 중심부 사이의 전압 강하로 내부 코어가 꺼집니다. 이를 웨이퍼 뒷면에서 수직으로 직접 전력을 공급하는 방식으로 해결했습니다.
냉각: 23킬로와트의 열을 저녁 접시 크기 면적에서 빼내야 합니다. 전용 액체 냉각 시스템으로 해결했습니다.
열 팽창 차이: 실리콘과 기판 PCB의 열 팽창 계수가 달라 온도가 오르내릴 때마다 웨이퍼가 약 200마이크론 미끄러집니다. Cerebras는 웨이퍼를 기판에 납땜하지 않고 전용 탄성 커넥터 위에 ‘떠있게’ 설계해 이 움직임을 흡수했습니다.

성능 격차: 숫자로 보면

결과는 분명합니다. WSE-3는 코어 90만 개, SRAM 44GB, 메모리 대역폭 21 PB/s를 갖추고 있습니다. 단순 비교 수치가 너무 커 보이지만, 이는 측정 방식 자체가 다르기 때문입니다. WSE-3는 90만 개 코어 각각이 자체 메모리를 가지고 있어 동시에 독립적으로 접근합니다. H100의 3.35 TB/s는 132개 유닛이 공유하는 단일 병목입니다.

진짜 비교 지표는 연산 1회당 공급 가능한 데이터량입니다.

WSE-3: 0.168 bytes/FLOP
H100: 0.0034 bytes/FLOP

50배 차이입니다. 이 차이가 실제 속도로 이어집니다. Llama-3 70B 기준 단일 스트림 토큰 생성 속도는 WSE-3에서 초당 2,100개, H100에서 30~50개입니다.

그런데 왜 아직 아무도 안 쓰나

물리는 Cerebras의 편입니다. 그런데 사업 현실은 훨씬 복잡합니다.

용량 한계: WSE-3의 SRAM은 44GB입니다. Llama-3 70B 모델 하나를 올리려면 CS-3 시스템 4대를 연결해야 합니다(140GB 필요). DeepSeek-R1(671B 파라미터) 같은 대형 모델은 30대 이상이 필요합니다. GPU 한 장으로 70B를 올리는 것과 비교하면 인프라 규모와 비용이 차원이 다릅니다.

소프트웨어 생태계: 매 웨이퍼마다 불량 코어 패턴이 다르기 때문에 컴파일된 바이너리는 특정 기기에만 작동합니다. 표준 모델 컴파일에는 15분, 커스텀 연산자는 3시간 이상 걸리고, 실패하는 경우도 있습니다. vLLM, FlashAttention, HuggingFace Trainer — GPU 생태계의 핵심 도구들은 Cerebras에서 동작하지 않습니다. 현재 지원 모델은 단 4개입니다.

재무 구조: 2025년 매출의 86%는 아부다비 국가 기관 두 곳에서 나왔습니다. OpenAI와의 200억 달러 계약은 2025년 인식 매출에 1달러도 기여하지 않았습니다. 계약 구조를 분석하면, OpenAI 기본 테넌트만으로는 시스템당 연간 약 -81%의 마진이 나옵니다. Cerebras가 유휴 시간을 다른 기업 고객에게 되팔고 소프트웨어 서비스를 얹어야 수익이 납니다.

그럼에도 이 회사가 중요한 이유

Cerebras가 시장에서 살아남느냐와 별개로, 이 회사의 존재 자체가 업계의 방향을 보여줍니다. NVIDIA는 2025년 12월 비슷한 SRAM 집약형 아키텍처를 가진 Groq를 200억 달러에 사들였습니다. Google은 TPU를 훈련용과 추론용으로 나누기 시작했습니다. AI 추론의 병목이 연산이 아니라 메모리라는 Cerebras의 전제를, 경쟁자들이 이미 행동으로 인정한 셈입니다.

엔지니어링은 실재합니다. 성능 우위도 측정 가능합니다. 남은 질문은 소프트웨어 생태계와 단위 경제학이 NVIDIA가 여유를 없애기 전에 충분히 성숙할 수 있느냐입니다.

웨이퍼 스케일 AI의 물리적 도전과 실제 추론 아키텍처에 대한 더 상세한 분석은 원문에서 확인하실 수 있습니다.

참고자료:

Cerebras prices IPO at $185 per share – Reuters
NVIDIA’s $20B Groq Acquisition – CNBC

Like?

AI Sparkup

GPU가 토큰 하나 만들 때 연산 능력의 1%만 쓴다, Cerebras가 노리는 그 낭비

문제의 본질: 연산이 아니라 메모리

Cerebras의 답: 메모리와 연산을 붙여버리기

성능 격차: 숫자로 보면

그런데 왜 아직 아무도 안 쓰나

그럼에도 이 회사가 중요한 이유

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude Cowork, 코딩보다 보고서 쓰기에 4배 더 쓰인다

Claude Code 점수가 동료 컴퓨터에서 다르게 나오는 이유

에이전트 위해 CLI를 JSON으로 바꾸면, 비용이 11배 뛴다

Claude Code의 모델과 effort, 다른 걸 조절하고 있었다