Google TPU 8세대, 훈련·추론 칩 분리한 이유

지금까지 Google의 TPU는 한 칩으로 AI 훈련과 추론을 모두 처리해왔습니다. 그런데 8세대에서 처음으로 두 개의 칩으로 나뉘었습니다. 에이전트 시대가 요구하는 것이 그만큼 달라졌다는 뜻입니다.

사진 출처: Google Blog

Google은 4월 22일 Google Cloud Next에서 8세대 TPU 두 종을 공개했습니다. 훈련 전용 TPU 8t와 추론 전용 TPU 8i입니다. 10년 넘게 이어온 TPU 개발 역사에서 용도별로 아키텍처를 분리한 것은 이번이 처음입니다. 두 칩 모두 올해 말 정식 출시될 예정입니다.

출처: Our eighth generation TPUs: two chips for the agentic era – Google Blog

왜 두 개로 나눴는가

훈련과 추론은 본질적으로 요구하는 것이 다릅니다. 훈련은 수개월에 걸쳐 엄청난 양의 연산을 쉬지 않고 처리하는 마라톤에 가깝습니다. 반면 추론, 특히 에이전트 환경에서의 추론은 여러 에이전트가 동시에 서로 결과를 주고받으며 실시간으로 반응해야 하는 릴레이에 가깝습니다.

이 두 작업을 하나의 칩에서 타협점을 찾아 처리하는 것보다, 각각에 최적화된 칩을 만드는 것이 훨씬 효율적이라는 판단입니다. Google DeepMind와 공동 설계한 이번 칩은 그 판단의 산물입니다.

TPU 8t: 훈련을 위한 연산 규모

TPU 8t는 대규모 모델 훈련을 빠르게 끝내는 데 초점을 맞췄습니다. 단일 슈퍼팟 기준으로 9,600개 칩을 연결해 121 엑사플롭스(ExaFLOPS)의 연산량을 제공하고, 2페타바이트(PB)의 공유 고대역폭 메모리를 갖춥니다. 이전 세대(Ironwood) 대비 같은 비용에서 약 2.8배의 성능을 냅니다.

훈련에서 칩만큼 중요한 것이 ‘실제로 계산에 쓰이는 시간 비율’입니다. 아무리 빠른 칩도 오류가 생기거나 데이터를 기다리는 시간이 길면 의미가 없습니다. TPU 8t는 목표 유효 가동률(goodput)을 97% 이상으로 설계했습니다. 오류 발생 시 자동으로 우회 경로를 찾고, 인간 개입 없이 하드웨어를 재구성하는 기능(OCS)이 이를 뒷받침합니다.

스케일 측면에서도 새로운 Virgo 네트워크 패브릭과 JAX 소프트웨어를 결합해 최대 100만 개 칩을 단일 논리 클러스터로 묶어 거의 선형에 가까운 성능 확장이 가능합니다.

TPU 8i: 추론을 위한 속도와 메모리

TPU 8i는 에이전트들이 복잡하게 얽혀 동시에 작동하는 환경에서 지연을 최소화하는 데 집중했습니다. 에이전트 수가 늘어날수록 작은 지연도 누적되어 큰 병목이 되기 때문입니다.

핵심 설계 변화는 온칩 SRAM을 이전 세대 대비 3배 늘린 384MB로 확장한 것입니다. 추론 시 모델의 활성 작업 데이터(KV 캐시)를 외부 메모리 접근 없이 온칩에서 처리할 수 있어 응답 속도가 크게 빨라집니다. 고대역 메모리(HBM)도 288GB를 갖추고 있습니다.

또한 Boardfly라는 새로운 네트워크 토폴로지를 도입해 칩 간 최대 네트워크 거리를 50% 이상 줄이고, 온칩 Collectives Acceleration Engine(CAE)으로 집합 연산의 지연을 최대 5배 단축했습니다. 결과적으로 이전 세대 대비 같은 비용에서 80% 더 나은 성능을 달성하며, 동일 비용으로 처리할 수 있는 동시 사용자 수가 거의 두 배가 됩니다.

커스텀 칩 경쟁의 흐름 속에서

이번 발표는 Google만의 움직임이 아닙니다. Apple은 이미 수년째 자체 신경망 엔진 칩을 쓰고 있고, Microsoft는 올해 초 2세대 AI 칩 Maia 200을 발표했습니다. Meta도 Broadcom과 함께 여러 버전의 AI 프로세서를 개발 중입니다. 자체 칩으로 비용 효율과 특수 목적 최적화를 동시에 잡으려는 빅테크의 흐름이 가속화되고 있습니다.

Google의 이번 분리 전략은 그 흐름 안에서도 한 발 더 나아간 것입니다. Anthropic이 멀티 기가와트 규모의 TPU 사용을 약속하고, Citadel Securities가 정량 리서치에 TPU를 채택하는 등 외부 수요도 빠르게 늘고 있습니다. DA Davidson은 TPU 사업 부문의 가치를 약 9,000억 달러로 평가하기도 했습니다.

TPU 8t와 8i의 구체적인 성능 벤치마크와 아키텍처 상세는 Google 공식 블로그 원문에서 확인할 수 있습니다.

참고자료: Google launches training and inference TPUs in latest shot at Nvidia – CNBC

Like?

AI Sparkup

Google TPU 8세대, 훈련·추론 칩 분리한 이유

왜 두 개로 나눴는가

TPU 8t: 훈련을 위한 연산 규모

TPU 8i: 추론을 위한 속도와 메모리

커스텀 칩 경쟁의 흐름 속에서

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

말로 설명하지 말고 그냥 보여주세요, Gemini Live 카메라 기능

화려한 AI 투자 발표 뒤에 숨은 1.65조 달러의 빚

퇴사하면 사라지는 회사 ChatGPT 대화, 미리 백업해두는 법

취약점 탐지에 대형 AI가 필요 없다는 걸 증명한 모델들