2025년 9월, OpenAI가 구글 클라우드 계약을 체결하고 TPU 도입을 검토한다는 소식이 나오자 Jensen Huang CEO는 즉각 Sam Altman에게 전화를 걸었습니다. 중단됐던 협상을 다시 테이블 위에 올렸고, 며칠 뒤 텍사스행 비행기에 탑승하기 몇 시간 전 1,000억 달러 규모의 파트너십을 체결했습니다. AI 칩 시장의 절대 강자가 보인 이 긴박한 대응은 단순한 비즈니스 이상의 의미를 담고 있습니다.

핵심 포인트:
- CUDA 생태계라는 보이지 않는 성: NVIDIA 지배력의 핵심은 하드웨어가 아니라 17년간 구축한 소프트웨어 생태계. PyTorch와 TensorFlow 같은 주요 AI 프레임워크가 CUDA에 최적화되면서 개발자들은 사실상 NVIDIA 칩을 쓸 수밖에 없는 구조
- TPU는 성능으로 이길 수 없지만 가격으로 위협한다: 구글 TPU와 AWS Trainium은 NVIDIA 대비 40~70% 저렴하면서도 특정 워크로드에서 경쟁력 있는 성능을 제공. 특히 추론(inference) 작업에서는 GPU만큼 강력할 필요가 없다는 게 치명적
- OpenAI의 멀티 클라우드 전략이 시사하는 것: Microsoft 독점에서 벗어나 Oracle, 자체 인프라까지 확장하는 OpenAI의 움직임은 AI 기업들이 인프라 다변화로 협상력을 확보하는 새로운 트렌드
CUDA라는 이름의 해자
NVIDIA가 AI 칩 시장을 장악할 수 있었던 진짜 이유는 GPU 성능이 아닙니다. 2007년 출시된 CUDA(Compute Unified Device Architecture)라는 소프트웨어 플랫폼입니다. 지난 17년간 전 세계 AI 연구자와 개발자들은 CUDA 위에서 모델을 훈련시켰고, PyTorch와 TensorFlow 같은 주요 프레임워크는 CUDA에 최적화됐습니다.
다른 칩으로 전환한다는 건 단순히 하드웨어를 바꾸는 게 아닙니다. 수천 줄의 코드를 다시 작성하고, 최적화를 처음부터 시작하고, 검증되지 않은 성능 리스크를 감수해야 합니다. Forbes는 이를 두고 “CUDA 생태계가 만든 뚫을 수 없는 요새”라고 표현했습니다.
Jensen Huang은 BG2 팟캐스트에서 구글 TPU에 대해 이렇게 말했습니다. “구글의 장점은 선견지명이었습니다. 모든 게 시작되기 전에 TPU1을 만들었죠. 구글은 우리의 큰 GPU 고객이기도 하고… 그들이 하는 일은 믿을 수 없을 만큼 어렵습니다.” 경쟁자를 직접적으로 인정하지는 않았지만, 시장 지배자가 특정 기술의 선견지명과 어려움을 공개적으로 언급했다는 점 자체가 의미심장합니다.

성능 아닌 가격으로 싸우는 전쟁
흥미로운 건 GPU와 TPU의 경쟁이 성능 경쟁이 아니라는 점입니다. MLPerf 벤치마크를 보면 NVIDIA H100 11,616개는 GPT-3 훈련 체크포인트를 3.44분에 도달하지만, 구글 TPU v5p 6,144개는 11.77분이 걸립니다. 3배 이상 차이가 납니다.
하지만 가격은 다른 이야기를 합니다. NVIDIA Tesla V100은 시간당 2.48달러, A100은 2.93달러입니다. 반면 구글 TPU v3는 4.50달러, v4는 8.00달러로 오히려 비쌉니다. 그렇다면 왜 TPU가 위협일까요?
AWS Trainium과 구글 TPU v5e는 대규모 언어모델 추론에서 NVIDIA H100 클러스터 대비 50~70% 저렴한 토큰당 비용을 제공합니다. 특히 AI의 90% 이상을 차지하는 추론(inference) 워크로드는 훈련만큼 강력한 칩이 필요 없습니다. AWS는 Trainium이 GPU 대비 40% 저렴하다고 주장하고, Anthropic, Apple, Qualcomm 같은 기업들이 실제로 채택했습니다.
AI 비용이 기하급수적으로 늘어나는 현실에서 가격 효율성은 더 이상 부차적 요소가 아닙니다. OpenAI의 10기가와트 인프라는 400만~500만 개의 GPU가 필요하고, Stargate 프로젝트에만 5,000억 달러가 투입됩니다. 이런 규모에서는 10%만 절약해도 수백억 달러가 됩니다.
OpenAI가 협상 테이블에서 얻은 것
OpenAI는 왜 구글 TPU를 검토했을까요? 실제로 전환하려던 게 아닙니다. 협상 레버리지를 만들려던 겁니다. 결과는 놀라웠습니다.
NVIDIA는 100억 달러씩 10단계로 나눠 총 1,000억 달러를 투자하기로 했습니다. 첫 100억 달러는 5,000억 달러 밸류에이션으로 고정되고, 이후 9차례는 각 단계 시점의 밸류에이션을 따릅니다. 일반적 벤처투자 라운드처럼 한 번에 큰 지분 희석이 일어나지 않도록 설계된 구조입니다.
더 중요한 건 OpenAI가 NVIDIA를 “선호 파트너(preferred partner)”로만 지정했다는 점입니다. 독점이 아닙니다. Microsoft Azure, Oracle, 자체 데이터센터를 병행하며 어느 하나에 종속되지 않는 전략을 유지했습니다. Microsoft에는 계약 하루 전에야 통보했고, “우선 거절권(right of first refusal)”만 줬습니다.

OpenAI CFO Sarah Friar는 “가장 큰 문제는 지속적인 컴퓨팅 부족”이라고 했습니다. Microsoft만으로는 턱없이 부족했고, Oracle이 향후 5년간 3,000억 달러 규모의 컴퓨팅 용량을 제공하기로 한 계약도 이미 체결했습니다. 멀티 클라우드 전략은 선택이 아니라 생존 전략입니다.
AI 인프라 시장의 권력 이동
OpenAI의 사례가 시사하는 건 AI 인프라 시장의 권력 구조가 재편되고 있다는 점입니다.
첫째, 클라우드 vs 자체 인프라 경계가 흐려지고 있습니다. OpenAI는 1~2년 내 자체 클라우드 서비스를 상용화할 계획입니다. 지금은 프론티어 모델 훈련에 모든 컴퓨팅을 쏟아붓지만, 충분한 용량을 확보하면 AWS, Azure, Google과 같은 1차 클라우드 제공자로 진화한다는 겁니다.
둘째, 대형 AI 기업들의 자체 칩 개발이 가속화되고 있습니다. Meta는 자체 AI 칩을, AWS는 Trainium을, 구글은 TPU를 만듭니다. NVIDIA만으로는 충분하지 않고, 비용도 감당하기 어렵기 때문입니다. Reuters는 이를 “NVIDIA의 AI 지배력을 깨려는 소프트웨어 공격”이라고 표현했습니다.
셋째, NVIDIA의 대응 전략도 변하고 있습니다. OpenAI 외에도 Intel에 50억 달러(공동 칩 개발), 영국 스타트업 Nscale에 7억 달러(데이터센터), CoreWeave IPO 투자까지 공격적으로 포트폴리오를 확장 중입니다. 하드웨어 판매자에서 AI 인프라 생태계 투자자로 변신하고 있습니다.
AI 시장의 미래는 독점이 아니라 다변화
Jensen Huang이 OpenAI의 구글 TPU 검토 소식에 긴급 대응한 건 NVIDIA의 지배력이 절대적이지 않다는 걸 누구보다 본인이 잘 알기 때문입니다. CUDA 생태계는 강력하지만 영원하지 않습니다. UXL Foundation 같은 오픈소스 대안이 등장하고, AMD와 Intel이 참여하며, AI 기업들은 비용 절감을 위해 멀티 칩 전략을 실험합니다.
AI 인프라 시장은 독점에서 다변화로 이동하고 있습니다. OpenAI의 멀티 클라우드 전략, 대형 테크 기업들의 자체 칩 개발, NVIDIA의 투자 포트폴리오 확장은 모두 같은 방향을 가리킵니다. 단일 공급자에 의존하는 시대는 끝나고, 협상력을 확보하고 비용을 최적화하며 기술적 유연성을 확보하는 전략이 새로운 표준이 되고 있습니다.
참고자료:
- NVIDIA’s CEO Jensen Huang ‘Scrambled’ To Rescue a Stalled Deal From Collapse With OpenAI
- Altman, Huang negotiations that sealed $100 billion OpenAI-Nvidia deal
- Understanding TPUs vs GPUs in AI: A Comprehensive Guide
- The CUDA Advantage: How NVIDIA Came to Dominate AI
- Behind the plot to break Nvidia’s grip on AI by targeting software

답글 남기기