새벽 2시 13분, 버지니아의 어느 데이터센터에서 GPU 클러스터가 멈춥니다. 수만 명의 개발자가 사용하는 AI 코딩 도구의 모델 서빙 레이어가 다운된 겁니다. 추론 큐가 쌓이기 시작하고, 매 분이 돈으로 환산되죠. 몇 초 후 슬랙에 메시지가 뜹니다. “클러스터 14번 메모리 부족. 백업 노드로 리밸런싱 중. 예상 복구 시간 10분.”
이 메시지를 보낸 사람이 바로 AI 인프라 엔지니어입니다.

기술 채용 플랫폼 HackerRank가 “AI 시대의 가장 핫한 직업” 시리즈 마지막 편으로 AI 인프라 엔지니어를 집중 조명한 글을 발표했습니다. 새로운 모델을 발표하는 연구자도, 제품에 AI를 연결하는 엔지니어도 아닌, AI의 ‘보이지 않는 뼈대’를 만드는 사람들의 이야기죠. 이들이 없었다면 AI 붐은 자체 무게를 견디지 못하고 무너졌을 거라고 글은 말합니다.
출처: The Hidden Architects of the AI Boom: Inside the Rise of the AI Infrastructure Engineer – HackerRank Blog
연구자도 아니고 개발자도 아닌, 그 사이 어딘가
AI 엔지니어가 모델을 제품에 연결한다면, AI 인프라 엔지니어는 그 제품을 물리적 세계와 연결합니다. GPU와 TPU 같은 하드웨어부터, 테라바이트 규모 데이터를 움직이는 네트워크, 작업을 배분하는 스케줄러와 오토스케일러, 모델을 서빙하고 모니터링하는 파이프라인까지 관리하죠. 한 AI 기업의 ML 인프라 리드는 이렇게 말합니다. “우리를 AI의 항공 관제사라고 생각하세요. 매 시간 수백 개의 모델이 이륙하고 착륙하며 연료를 보급합니다. 우리 일은 그것들이 충돌하지 않게 하는 겁니다.”
이들의 하루는 대시보드를 확인하며 시작됩니다. GPU 사용률 차트, 지연 시간 지표, 추론 큐 깊이. 한 클러스터에서 메모리 사용량이 급증하면 새 모델 배포가 제대로 스케일링되지 않은 겁니다. 추론 시간이 갑자기 늘어나면 배치 사이즈가 불균형하거나 캐시 레이어가 누락된 게 원인일 수 있죠. 다운타임의 매 분이 컴퓨팅 비용과 돈을 태우기 때문에 빠르고 정확하게 움직입니다.
오전에는 협업이 주를 이룹니다. 새로 파인튜닝한 모델을 프로덕션에 배포하려는 AI 엔지니어링 팀과 GPU 할당, 컨테이너 이미지, 롤아웃 임계값을 논의하죠. 이론상으론 자동화된 워크플로우지만, 실전에선 모든 모델이 다르게 작동하고 프로덕션엔 항상 예상치 못한 일이 벌어집니다. 한 인프라 리드의 말처럼 “모든 새 배포는 실험입니다. 부하 테스트를 아무리 해도 실제 사용자들이 시스템을 두들겨 패는 것과는 비교가 안 되거든요.”
오후에는 비용과 성능 최적화에 집중합니다. 사용 리포트를 살펴보며 유휴 GPU 시간이나 더 저렴한 리전으로 옮길 수 있는 작업을 찾습니다. 몇 가지 설정을 조정해서 지연 시간을 50밀리초 줄이거나 컴퓨팅 비용을 수천 달러 절감하죠. 이런 개선은 헤드라인에 나오지 않지만 누적됩니다. 모든 최적화가 직접적으로 가동 시간과 효율성으로 이어지니까요.
2023년, 모든 게 다시 무너진 해
10년 전만 해도 가장 큰 엔지니어링 과제는 GPU나 파운데이션 모델이 아니라 배포였습니다. 2010년대 DevOps의 부상으로 기업들은 소프트웨어 배포 방식을 혁신했죠. 지속적 통합, 자동화된 파이프라인, 코드형 인프라가 표준이 됐습니다.
그러다 머신러닝이 등장했고 DevOps만으로는 부족해졌습니다. 훈련 사이클이 전통적 CI/CD를 무너뜨렸고, 모델은 버저닝, 모니터링, 재훈련 워크플로우가 필요했죠. MLOps가 등장한 이유입니다. 데이터 사이언스와 소프트웨어 안정성 사이의 중간 지점이었죠. 몇 년간은 잘 작동했습니다. 그러다 2023년이 왔고 모든 게 다시 무너졌습니다.
생성AI 급증으로 모델과 워크로드가 단일 노드 실험에서 클러스터 규모 운영으로 확장됐습니다. 비용과 큐잉 압력이 급증했고, 특히 H100 칩 부족 사태 때 더 심했죠. 수백억 개 파라미터의 초거대 LLM과 연중무휴 추론 트래픽 앞에서 DevOps 파이프라인이 버티지 못했습니다. 오토스케일링 로직은 실제 수요를 예측하지 못했고, 배치 작업용으로 설계된 훈련 인프라는 이제 수백만 명의 인터랙티브 사용자를 실시간으로 서빙해야 했습니다. 감당이 안 됐죠.
그 해는 재평가를 강제했습니다. AI의 성공은 더 이상 데이터나 연구 인재로 제한되지 않았습니다. 대규모로 인텔리전스를 구동할 능력이 관건이었죠. 팀들은 자체 클라우드급 AI 인프라 시스템을 설계하고, 스케줄러를 미세 조정하고, 모델 워크로드 전용 관측 레이어를 구축하기 시작했습니다. 컴퓨팅을 늘리고, 결과를 캐싱하고, 거의 실시간으로 비용을 관리하는 새로운 방법을 발명했죠.
이런 변화를 주도한 엔지니어들은 자신들이 하는 일에 새 이름을 붙이기 시작했습니다. AI 인프라. 이건 DevOps나 MLOps의 리브랜딩이 아니었습니다. 더 큰 무언가, 현대 인텔리전스의 기초였죠. 한 인프라 책임자는 이렇게 말합니다. “전통적인 DevOps 플레이북이 통하지 않는다는 걸 깨달았습니다. 언어 모델은 살아있는 유기체처럼 행동합니다. 자라고, 변하고, 컴퓨팅을 먹어치우죠. 도커로 감싸서 끝낼 문제가 아닙니다.”
연봉 9억 시대, 인프라가 경쟁력이 되다
2025년 주요 채용 사이트를 검색하면 패턴이 보입니다. 초기 스타트업부터 방위 업체까지 모두 AI 인프라 엔지니어를 채용 중입니다. 직함은 다양합니다. AI 플랫폼 엔지니어, ML 인프라 엔지니어, AI 시스템 엔지니어. 하지만 본질은 거의 동일하죠.
거의 모든 공고가 DevOps 베테랑의 반사신경과 머신러닝 엔지니어의 수학적 문해력을 결합한 하이브리드 역할을 요구합니다. 한 공고는 “페타바이트 규모의 멀티모달 데이터를 처리하는 대규모 GPU 클러스터 오케스트레이션 경험”을 요구합니다. 다른 곳은 “PyTorch, CUDA, Ray에 대한 실무 지식과 추론 비용 최적화 및 분산 훈련에 대한 강한 집중”을 원하죠.
자율주행 지각 시스템을 훈련하든, 고처리량 추론 API를 관리하든, 멀티모달 데이터 파이프라인을 구축하든, 각 역할은 같은 스킬셋을 강조합니다. 시스템 안정성, GPU 오케스트레이션, 비용을 고려한 스케일링. Kubernetes, Terraform, AWS와 GCP 같은 클라우드 제공업체 경험은 당연하게 여겨지죠. 이제 후보자를 차별화하는 건 Ray, Triton, vLLM 같은 현대 서빙 및 오케스트레이션 스택에 대한 유창함입니다.
한 기술 인력 전문 리크루터는 이렇게 말합니다. “2년 전만 해도 이 직함은 대부분의 채용 계획에 존재하지도 않았습니다. 지금은 추론 비용을 통제할 수 있는 후보자에게 총 보상 패키지로 50만 달러를 제시하는 클라이언트들이 있습니다.”
보상 수준도 1등급 영역에 진입했습니다. 프런티어 랩에서는 총 패키지가 AI 연구자와 맞먹거나 능가합니다. 크라우드소싱 데이터를 보면 OpenAI 소프트웨어 엔지니어의 총 보상은 약 $242K(L2)에서 약 $1.3M(L6)까지 분포하며, 중간값은 약 $910K입니다. Anthropic의 경우 최근 제출 데이터는 소프트웨어 엔지니어 총 보상 중간값을 약 $570K, 상위 범위를 $650K 정도로 보여줍니다.
그 아래 시장도 견고합니다. Glassdoor 등의 집계 데이터는 AI/ML 인프라 역할을 전통적인 플랫폼 엔지니어링보다 훨씬 높고 응용 ML에 가깝게 배치합니다. Glassdoor의 ‘AI 인프라 엔지니어’ 페이지는 현재 미국 평균 총 급여를 약 $166K로, 90분위수를 $255K 근처로 표시합니다.
혁신보다 안정성이 승부처가 되는 시대
모든 기술 혁명에는 그 아래 보이지 않는 아키텍처가 있습니다. 증기기관에는 제철소가, 인터넷에는 광섬유와 서버가 있었죠. AI 혁명은 인프라와 그것을 만드는 사람들 위에서 돌아갑니다.
AI 인프라 엔지니어는 새 모델이나 알고리즘을 발명하지 않습니다. 그들은 인텔리전스가 대규모로 존재할 수 있는 조건을 발명합니다. 실험실에서 빛나던 모델이 수백만 사용자, 예측 불가능한 데이터, 유한한 컴퓨팅과 접촉해도 살아남을 수 있는지를 결정하는 판단을 내리죠.
대부분의 AI 기업에서 이들은 이제 야망과 물리학이 만나는 교차점을 차지합니다. 트랜스포머 아키텍처가 GPU 메모리 풋프린트로 어떻게 변환되는지, 추론 워크로드가 네트워크 스택을 어떻게 스트레스하는지, 정밀도나 양자화의 작은 변화가 클라우드 비용을 수백만 달러 흔들 수 있는지 이해합니다. 전기처럼 신뢰할 수 있게 AI를 지속적으로 구동하기에 충분히 회복력 있는 시스템을 설계하죠.
한 베테랑 인프라 엔지니어는 이렇게 말합니다. “어느 순간부터 AI는 코드가 아니게 됩니다. 물류가 되죠. 데이터, 컴퓨팅, 처리량. 파이썬 코드 줄로 생각하는 걸 멈추고 메가와트로 생각하기 시작합니다.”
이 변화는 업계 내 영향력 위계를 바꾸고 있습니다. AI 연구는 여전히 발견을 주도하지만, 실현 가능성을 정의하는 건 인프라입니다. 대규모 모델을 저렴하고 안정적으로 구동할 수 있는 기업은 이제 알고리즘 혁신만큼 결정적인 전략적 우위를 갖습니다. 그래서 최고의 인프라 엔지니어들이 한때 머신러닝 과학자에게만 쏟던 강도로 채용되는 겁니다.
다른 엔지니어는 이렇게 말합니다. “사람들은 데모를 봅니다. 우리는 그걸 떠받치는 비계를 보죠.” 그것이 무엇보다 이 역할을 정의합니다. AI 인프라 엔지니어는 속도와 안정성 사이의 좁은 공간에 존재합니다. 혁신을 계속 움직이게 할 만큼 빠르면서도, 부하로 무너지지 않게 할 만큼 신중한 사람들이죠.
세상이 AI를 모든 곳에 통합하려 서두르는 동안, 이 비계들은 디지털 경제의 기초가 되고 있습니다. 안정성과 효율성은 사후 고려 사항이 아닙니다. 혁신의 새로운 프런티어입니다. 확장에 실패하거나 클라우드 예산을 파산시키는 AI 제품은 제품이 아니죠.
모델을 둘러싼 과대광고가 불가피하게 사그라들 때, 남는 것은 견뎌낸 시스템들일 겁니다. 클러스터, 파이프라인, 오케스트레이션 로직, 그리고 그것을 만든 엔지니어들. 이들은 발명한 것보다 가능하게 만든 것으로 기억될 겁니다. 인공지능이 마침내 실제로, 사용 가능하고, 전 지구적인 기술이 될 수 있게 한 것으로요.
참고자료:
- From Palo Alto to the Pentagon: Why Every Company Suddenly Wants AI Engineers – HackerRank Blog
- The AI Researcher Arms Race: Inside Tech’s Priciest Talent War – HackerRank Blog

답글 남기기