AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 칩 전쟁의 역설: Google TPU는 Nvidia보다 빠른데 왜 안 팔릴까?

AI 클라우드 시장이 격변하고 있습니다. AWS, Azure, Google Cloud 같은 클라우드 대기업들이 AI 시대를 맞아 50~70%에 달하던 높은 마진율을 20~35%까지 내려놓고 경쟁해야 하는 상황이 됐죠. 이유는 하나입니다. Nvidia가 AI 칩 시장의 80%를 장악하며 75%의 마진을 가져가는 동안, 클라우드 업체들은 값비싼 GPU를 사다 파는 중간상 신세로 전락했거든요.

Google은 이 문제를 10년 전부터 예견했습니다. 그리고 해법을 만들었죠. 바로 TPU(Tensor Processing Unit)입니다.

사진 출처: Uncover Alpha

투자 분석 미디어 Uncover Alpha가 Google TPU의 전략적 중요성과 기술적 우위를 분석한 심층 보고서를 발표했습니다. 핵심은 이렇습니다. TPU는 Nvidia GPU보다 성능과 비용 효율에서 압도적으로 앞서지만, 생태계 장벽 때문에 확산이 더딥니다. 하드웨어만으로는 시장을 바꿀 수 없다는 교훈이죠.

출처: The chip made for the AI inference era – Uncover Alpha

데이터센터가 두 배로 늘어날 뻔했던 위기

2013년, Google 내부에서 충격적인 계산 결과가 나왔습니다. 만약 모든 안드로이드 사용자가 Google의 음성 검색을 하루 3분만 쓴다면, 전 세계 데이터센터 용량을 두 배로 늘려야 한다는 거였어요. 당시 쓰던 CPU와 GPU로는 딥러닝의 핵심 연산인 행렬 곱셈을 처리하기엔 너무 비효율적이었죠.

Google은 소프트웨어 회사로서는 드문 결정을 내립니다. 직접 칩을 만들기로 한 거예요. 범용 칩이 아닌, TensorFlow 신경망 실행에만 특화된 ASIC(주문형 반도체)을 설계했습니다. 놀랍게도 설계부터 데이터센터 배치까지 단 15개월밖에 걸리지 않았어요.

2015년, 세상이 TPU의 존재를 알기도 전에 이미 Google 지도, Google 포토, Google 번역은 모두 TPU로 돌아가고 있었습니다.

GPU와 TPU, 무엇이 다른가

GPU는 원래 그래픽용으로 설계됐어요. 병렬 처리에 강해서 AI에도 좋지만, 게임부터 과학 계산까지 온갖 걸 다 해야 하니 ‘건축학적 짐’을 지고 있죠. 캐싱, 분기 예측, 독립적인 스레드 관리 같은 복잡한 기능에 칩 면적과 전력을 많이 씁니다.

TPU는 그런 짐을 전부 버렸어요. 그래픽 렌더링이나 텍스처 매핑 같은 하드웨어가 아예 없습니다. 대신 ‘시스톨릭 어레이(Systolic Array)’라는 독특한 구조를 씁니다.

일반 CPU나 GPU는 계산할 때마다 데이터를 메모리와 연산 유닛 사이에서 왔다 갔다 옮겨야 합니다. 이게 병목(폰 노이만 병목)이 되죠. TPU의 시스톨릭 어레이는 마치 심장이 혈액을 순환시키듯 데이터를 칩 안에서 흐르게 합니다. 가중치 데이터를 한 번만 로드하고, 입력값을 거대한 곱셈기 격자를 통과시키면서 계산한 결과를 메모리에 쓰지 않고 바로 다음 유닛으로 넘기는 거예요.

결과적으로 TPU는 메모리 읽기/쓰기 횟수를 극적으로 줄입니다. 덕분에 대기 시간 없이 연산만 계속할 수 있죠. Google의 최신 TPUv7(코드명 Ironwood)은 전 세대인 v5p와 비교해도 성능이 10배 넘게 뛰었습니다(4,614 TFLOPS vs 459 TFLOPS).

실제 성능은? “GPU보다 2배 효율적”

Google은 TPU 성능을 공개적으로 자세히 밝히지 않습니다. 하지만 AlphaSense가 수집한 전직 Google 직원, 고객, 경쟁사 인터뷰를 종합하면 그림이 보여요.

전직 Google Cloud 직원의 증언:

“적합한 애플리케이션이라면 GPU 대비 달러당 성능이 1.4배 더 좋습니다. 에너지 효율도 훨씬 낫고요. 환경 발자국도 작습니다.”

전직 Google 유닛 헤드의 증언:

“TPUv6는 GPU보다 60~65% 더 효율적입니다. 이전 세대들은 40~45% 정도였고요.”

이 인터뷰는 2024년 11월에 이뤄졌으니, 아마 Nvidia Hopper와 비교한 수치일 겁니다. 지금은 Blackwell vs TPUv7 구도죠.

한 고객의 생생한 경험담도 흥미롭습니다:

“Nvidia H100 8개를 쓸 비용이면 TPU v5e 파드 하나를 훨씬 저렴하게 쓸 수 있어요. 코드가 이미 TPU에서 돌아간다면 TPU를 고집할 이유가 충분합니다. Google이 신세대 TPU를 내놓으면 구세대 가격이 확 떨어져서 거의 공짜 수준이 되거든요. 훈련을 3일 안에 안 끝내도 된다면, 일주일 기다리는 대신 비용을 1/5로 줄일 수 있습니다.”

현직 AMD 직원도 ASIC의 장점을 인정했어요:

“AI 가속기는 GPU 대비 크기는 30% 줄이고, 전력은 50% 줄일 수 있을 거라 봅니다.”

심지어 Nvidia CEO 젠슨 황도 최근 팟캐스트에서 ASIC 중에서는 Google TPU가 “특별한 케이스”라고 인정했습니다. OpenAI가 Google TPU를 임대한다는 보도가 나왔을 때 젠슨이 직접 샘 올트먼에게 전화를 걸었다는 월스트리트저널 기사도 있었죠. Nvidia가 TPU를 얼마나 예의주시하는지 보여주는 대목입니다.

그런데 왜 TPU는 안 팔릴까?

성능도 좋고 비용도 저렴한데, TPU 채택률은 왜 낮을까요? 답은 간단합니다. 생태계입니다.

Nvidia의 CUDA는 AI 엔지니어들의 DNA에 새겨져 있어요. 대학에서 CUDA를 배웠고, 수많은 라이브러리와 도구가 CUDA 기반입니다. 업계는 CUDA와 PyTorch로 기울어져 있죠.

Google은 TPU를 10년 넘게 내부에서만 썼어요. JAX와 TensorFlow라는 자체 생태계를 만들었지만, 외부 개발자 지원은 최근에야 본격화됐습니다. TPU가 이제 PyTorch도 지원하지만, 라이브러리와 생태계 형성엔 수년이 걸립니다.

멀티클라우드 환경도 걸림돌입니다. AI 워크로드는 데이터와 밀접하게 연결돼 있고, 클라우드 간 데이터 전송 비용이 비싸요. Nvidia GPU는 AWS, Azure, Google Cloud 모두에서 쓸 수 있지만, TPU는 Google Cloud에만 있습니다.

한 고객이 TPU와 GPU를 모두 쓰는 이유를 이렇게 설명했어요:

“고객 데이터가 어느 클라우드에 있느냐에 따라 그 클라우드의 GPU를 쓰는 게 훨씬 싸요. 데이터 이전 비용(egress cost)이 크거든요. Nvidia 워크로드는 Azure든 어디든 코드 변경 없이 바로 돌릴 수 있어요. 하지만 TPU에 올인했다가 Google이 갑자기 가격을 10배 올리면 끝이죠. 코드를 다 다시 짜야 하니까요. 그래서 사람들이 TPU에 너무 많이 의존하길 두려워합니다.”

Nvidia의 진짜 무기는 하드웨어가 아니다

Reuters의 최근 보도에 따르면, Google은 이제 Nvidia의 전략을 그대로 따라 하고 있습니다. 단순히 칩만 파는 게 아니라 소프트웨어 생태계를 함께 구축하는 거죠.

Nvidia의 성공 비결은 칩 자체가 아닙니다. CUDA라는 소프트웨어 플랫폼을 10년 넘게 투자하며 만든 개발자 생태계입니다. Google도 JAX, Kubernetes 같은 도구로 같은 길을 가려 하지만, 10년 선발주자를 따라잡기는 쉽지 않아요.

Nvidia는 하드웨어 회사가 아니라 생태계 회사입니다. 칩을 팔지만, 진짜 해자는 그 칩 위에서 돌아가는 수천 개의 라이브러리, 수백만 명의 개발자, 수십 년간 축적된 최적화 노하우죠.

Google Cloud의 10년 전략

그럼에도 Google이 TPU에 계속 투자하는 이유가 있습니다. Google Cloud의 장기 생존 전략이거든요.

AI 시대에 클라우드 비즈니스는 고마진 사업에서 저마진 유틸리티로 전락하고 있어요. Nvidia가 75% 마진을 챙기는 동안 클라우드 업체들은 20~35% 마진으로 경쟁합니다. 이 구조에서 벗어나는 유일한 방법은 하드웨어를 직접 만드는 겁니다.

AWS는 Trainium을, Microsoft는 MAIA를 개발 중이지만, Google의 TPU가 가장 성숙했어요. 최근 Gemini 3 모델이 TPU로만 훈련됐고, 코딩과 분석 작업에서 높은 평가를 받았죠. SemiAnalysis 팀은 “Google의 실리콘 우위는 하이퍼스케일러 중 독보적이며, TPUv7은 Nvidia Blackwell과 동급”이라고 평가했습니다.

내부적으로 Google은 이미 Gemini와 Veo 같은 모든 AI 서비스에서 TPU를 쓰고 있어요. Nvidia GPU는 Google Cloud 고객이 원해서 사 놓은 것일 뿐입니다.

더 나은 칩만으론 부족하다

AI 칩 전쟁이 우리에게 주는 교훈은 명확합니다. 기술적 우위만으로는 시장을 바꿀 수 없다는 거예요.

Google TPU는 Nvidia GPU보다 2배 효율적입니다. 하지만 팔리지 않습니다. 10년간 쌓인 CUDA 생태계라는 거대한 벽이 있거든요. 하드웨어 성능 경쟁은 사실 소프트웨어 생태계 전쟁이었습니다.

Google은 이 싸움을 추론(inference) 시장에서 역전하려 합니다. 훈련(training)과 달리 추론에선 CUDA가 덜 중요하거든요. 최근 Meta가 수십억 달러 규모로 Google TPU 임대를 검토 중이라는 보도가 나왔는데, 이게 현실화되면 Google에게 큰 전환점이 될 겁니다.

장기전입니다. Google은 TPU를 10년 넘게 준비했고, 앞으로도 10년을 내다보고 있어요. 생태계 전쟁에서 이기려면 그만큼 긴 호흡이 필요합니다. 더 나은 칩을 만드는 것보다, 개발자들이 그 칩을 쓰고 싶게 만드는 게 훨씬 어렵거든요.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다