AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

OpenAI가 만든 첫 AI 칩 할라피뇨, AI가 9개월 만에 설계를 끝냈다

지금까지 OpenAI는 모델을 만드는 회사였습니다. 칩은 엔비디아에서 사서 썼죠. 그런데 이번에는 자기 모델을 돌릴 칩을 직접 설계했고, 그 설계를 도운 게 다름 아닌 OpenAI 자신의 AI 모델이었습니다.

사진 출처: OpenAI

OpenAI가 반도체 기업 브로드컴(Broadcom)과 함께 첫 자체 칩 ‘할라피뇨(Jalapeño)’를 공개했습니다. 추론(inference) 전용으로 설계된 가속기로, 초기 테스트에서 와트당 성능이 현존 최고 수준 대비 상당히 앞선다는 게 회사 측 설명입니다. 다만 칩은 아직 시험 단계이고, 상세 성능 수치는 추후 기술 리포트로 공개될 예정입니다.

출처: OpenAI and Broadcom unveil LLM-optimized inference chip – OpenAI

추론만을 위해 백지에서 설계한 칩

할라피뇨를 이해하는 핵심은 ‘추론 전용’이라는 점입니다. AI 작업은 크게 둘로 나뉩니다. 모델을 학습시키는 훈련(training)과, 다 만들어진 모델이 사용자 질문에 답하는 추론(inference)입니다. 우리가 ChatGPT에 질문을 던지고 답을 받는 그 순간이 바로 추론이죠.

할라피뇨는 이 추론만을 겨냥했습니다. 기존 AI 가속기를 추론용으로 개조한 게 아니라, LLM 추론에 맞춰 처음부터 새로 설계한 ‘백지 설계(blank-slate)’라는 점을 OpenAI는 강조합니다. ChatGPT, Codex, API처럼 매일 돌아가는 자사 시스템에서 얻은 데이터가 설계에 반영됐고, 데이터 이동을 줄이고 연산·메모리·네트워킹 자원의 균형을 맞춰 이론상 최대 성능에 가깝게 끌어올리는 데 초점을 맞췄습니다. 실험용 칩 샘플은 이미 연구실에서 GPT-5.3-Codex-Spark 같은 모델을 돌리고 있습니다.

학습은 여전히 엔비디아 GPU의 몫으로 남을 가능성이 큽니다. 하지만 추론은 한 번 만든 모델을 수억 명이 반복해서 쓰는 영역이라, 여기서 비용을 조금만 줄여도 전체 경제성에 미치는 효과가 큽니다.

AI가 AI 칩을 설계했다

이번 발표에서 가장 눈에 띄는 대목은 개발 속도입니다. 할라피뇨는 초기 설계부터 제조 직전 단계인 테이프아웃(tape-out)까지 단 9개월이 걸렸습니다. OpenAI는 이것이 고성능 반도체 분야에서 가장 빠른 ASIC 개발 주기일 것이라고 밝혔습니다. 보통 이런 칩은 설계에만 수년이 걸립니다.

이 속도의 비결 중 하나로 OpenAI는 자사 모델을 꼽습니다. 설계와 최적화 과정 일부를 자기 모델로 가속했다는 겁니다. 사용자에게 서비스되는 바로 그 모델이, 미래의 모델을 돌릴 인프라를 만드는 데 투입된 셈이죠.

여기서 묘한 순환이 생깁니다. 더 나은 칩이 연산 효율을 높이고, 높아진 효율이 더 나은 모델을 만들고, 그 모델이 다시 다음 세대 칩 설계를 돕습니다. OpenAI는 이를 자사 발전을 떠받치는 ‘플라이휠(flywheel)’이라고 표현합니다. AI가 칩 설계를 거들수록 컴퓨팅 비용이 내려가고, 그만큼 더 많은 사람이 고성능 AI에 접근할 수 있다는 논리입니다.

왜 칩까지 직접 만드나

이 움직임은 OpenAI가 추구해온 ‘풀스택(full-stack)’ 전략의 연장선에 있습니다. 프론티어 모델을 개발하고, 그 위에 제품을 만들고, 이제는 그 아래 인프라까지 설계하는 것입니다. 칩 아키텍처, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템까지 한 회사가 같은 목표 아래 층층이 최적화하면, 각 층의 손발이 더 잘 맞는다는 게 이들의 주장입니다.

배경에는 엔비디아 의존도를 낮추려는 동기가 있습니다. 구글은 TPU를, 아마존은 트레이니움(Trainium)을 만들며 같은 길을 먼저 걸었습니다. 할라피뇨는 브로드컴의 실리콘 구현 및 네트워킹 기술, 셀레스티카(Celestica)의 시스템 통합 역량과 결합해 여러 세대에 걸친 컴퓨팅 플랫폼의 첫 단추로 설계됐고, 2026년 말부터 데이터센터에 배치될 예정입니다.

결국 추론은 AI가 사람과 만나는 지점입니다. 비용·속도·안정성이 조금씩 개선될 때마다 그 변화는 더 빠른 ChatGPT 응답, 더 많은 단계를 밟는 Codex 작업, 더 저렴해진 API로 우리 손끝에 나타납니다. 칩이라는 가장 아래층의 변화가 가장 위층인 사용자 경험으로 올라오는 구조인 셈입니다.

다만 현재 공개된 성능은 “현존 최고 수준 대비 상당히 우수하다”는 정성적 표현에 머물러 있습니다. 구체적인 수치와 검증은 앞으로 나올 기술 리포트를 기다려봐야 합니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다