AI 추론이 둘로 나뉜다, Answer와 Agentic의 차이가 하드웨어를 바꾼다

2026-05-16

﹒

3 minutes

AI 칩 회사 Cerebras의 IPO 공모가가 며칠 사이 $115에서 $160으로 뛰어올랐습니다. 에이전트 AI 시대가 본격화되면서 반도체 수요가 폭발할 거라는 기대감 때문이죠. 그런데 Stratechery의 Ben Thompson은 이 IPO 열풍이 사실 더 깊은 구조적 변화를 가리키고 있다고 봅니다. 추론(inference)이라는 하나의 카테고리가 근본적으로 다른 두 가지로 쪼개지고 있다는 것입니다.

출처: The Inference Shift – Stratechery by Ben Thompson

GPU는 어떻게 AI의 중심이 됐나

GPU가 AI 훈련의 표준이 된 이유는 간단합니다. 화면에 픽셀을 그리는 작업처럼 AI 연산도 병렬 처리에 최적화되어 있고, Nvidia는 여기에 CUDA라는 소프트웨어 생태계까지 얹어 독점적 위치를 굳혔습니다.

추론(inference)도 같은 GPU 위에서 돌아갑니다. 추론 과정은 크게 세 단계로 나뉩니다.

Prefill: LLM이 입력 내용을 이해 가능한 상태로 인코딩하는 단계. 고도로 병렬화되어 있어 연산 속도가 중요합니다.
KV 캐시 읽기 (Decode 1단계): 이전 출력과 컨텍스트를 저장한 KV 캐시를 읽어 어텐션 계산을 수행합니다. 직렬 처리이며 메모리 대역폭이 핵심입니다.
모델 가중치 연산 (Decode 2단계): 모델 가중치 전체를 읽어 다음 토큰을 생성합니다. 마찬가지로 직렬 처리에 메모리 대역폭이 중요합니다.

Decode 단계는 토큰 하나를 생성할 때마다 KV 캐시와 모델 가중치 두 메모리 풀을 모두 읽어야 합니다. GPU는 이 세 가지 요구를 모두 충족하도록 설계되어 있고, 그래서 지금까지 훈련과 추론 모두 같은 GPU 클러스터에서 돌아갔습니다.

Cerebras가 다른 이유

Cerebras는 전혀 다른 접근을 취했습니다. 일반 반도체 공정에서는 하나의 노광 장비가 한 번에 처리할 수 있는 면적(레티클 한계)이 약 26×33mm로 제한됩니다. Nvidia의 B200은 두 개의 칩을 인터포저로 연결하는 방식으로 이 한계를 우회했습니다. Cerebras는 아예 웨이퍼 전체를 단일 칩으로 만드는 방법을 개발했습니다.

수치로 보면 차이가 큽니다. Cerebras의 WSE-3는 44GB의 온칩 SRAM을 초당 21PB 속도로 읽습니다. H100의 HBM이 3.35TB/s인 것과 비교하면 메모리 대역폭이 약 6,000배에 달합니다. 용량은 절반이지만, 속도는 압도적입니다.

이 구조는 빠른 답변을 주는 추론에는 탁월합니다. 다만 모델이 크거나 KV 캐시가 커지는 순간, 온칩 메모리를 벗어나게 되고 Cerebras의 강점은 사라집니다. 높은 웨이퍼 불량률로 인한 비용 문제도 있습니다.

추론의 두 가지 얼굴

Ben Thompson은 여기서 핵심적인 구분을 제시합니다. “추론”이라는 단어 아래 사실상 전혀 다른 두 가지 작업이 묶여 있다는 것입니다.

Answer Inference(답변 추론): 인간이 기다리는 상황에서 빠른 답을 주는 추론입니다. 챗봇 응답, 음성 AI, 실시간 코드 제안이 여기 해당합니다. Cerebras나 Groq 같은 고속 칩이 유리한 영역입니다. 사람이 대기 중이므로 토큰 생성 속도가 직접적으로 사용자 경험에 영향을 줍니다.

Agentic Inference(에이전트 추론): 인간 없이 작업을 수행하는 추론입니다. Claude Code처럼 도구를 사용하고, 결과를 검증하고, 다음 단계를 결정하는 에이전트가 여기 해당합니다. Thompson은 Opus 4.5와 Claude Code를 이 방식의 첫 번째 실용적 구현으로 봅니다.

에이전트가 밤새 혼자 작업을 돌린다면, 토큰 생성이 조금 느려도 아무도 체감하지 못합니다. 그 대신 에이전트에게는 다른 것이 중요해집니다. 컨텍스트, 상태, 작업 이력 같은 대규모 메모리입니다. 일부는 KV 캐시에, 일부는 호스트 메모리나 SSD에, 많은 부분은 데이터베이스나 벡터 스토어에 분산됩니다.

GPU가 에이전트 추론에 비효율적인 이유

GPU의 구조는 사실 에이전트 추론에 최적이 아닙니다. Prefill 단계에서는 막대한 HBM이 놀고, Decode 단계에서는 연산 유닛이 놉니다. 두 작업이 교대로 실행되면서 비싼 자원이 번갈아 낭비되는 구조입니다.

에이전트 추론에서 속도가 최우선이 아니라면, 굳이 HBM처럼 비싸고 빠른 메모리를 쓸 필요가 없습니다. 느리고 저렴한 DRAM으로도 충분하고, 칩도 최첨단일 필요가 없습니다. Thompson은 오히려 GPU보다 CPU의 속도, 즉 도구 호출(tool use)의 빠른 처리가 더 중요해질 수 있다고 말합니다.

Nvidia도 이 변화를 인식하고 있습니다. 추론의 서로 다른 단계를 분리해서 처리하는 Dynamo 프레임워크를 출시하고, 독립형 메모리 및 CPU 랙을 공급하기 시작했습니다. 하지만 Thompson은 하이퍼스케일러 입장에서 더 단순하고 저렴한 구성이 결국 더 매력적으로 보일 수 있다고 지적합니다.

시장의 무게중심

세 가지 AI 컴퓨팅 시장 중 가장 커질 곳은 어디일까요. Thompson은 에이전트 추론이 압도적으로 크다고 봅니다. 훈련과 답변 추론은 모두 인간의 수에 따라 수요가 제한되지만, 에이전트 추론은 다릅니다. 컴퓨터가 다른 컴퓨터의 지시를 받아 작업하는 구조이기 때문에, 인간의 수가 아니라 투입 가능한 컴퓨팅 자원에 따라 시장 규모가 결정됩니다.

Nvidia CEO 젠슨 황은 “무어의 법칙은 죽었다”고 말하며 시스템 혁신을 통한 성능 향상을 강조해왔습니다. 하지만 인간이 루프 밖에 있는 에이전트 세계에서는 속도보다 규모가 중요해집니다. 더 빠른 칩을 만드는 것보다, 충분히 좋은 칩을 더 많이 쌓는 것이 답이 되는 것이죠.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 추론이 둘로 나뉜다, Answer와 Agentic의 차이가 하드웨어를 바꾼다

GPU는 어떻게 AI의 중심이 됐나

Cerebras가 다른 이유

추론의 두 가지 얼굴

GPU가 에이전트 추론에 비효율적인 이유

시장의 무게중심

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI 추론이 둘로 나뉜다, Answer와 Agentic의 차이가 하드웨어를 바꾼다

Anthropic, 처음으로 기업 고객 수에서 OpenAI 추월, Ramp 데이터로 본 1년의 변화

Meta AI 인코그니토 채팅, 서버에 기록 안 남는 AI 대화의 기술 원리

Gemini가 Android에서 직접 행동한다, 앱 자동화부터 위젯 생성까지