아마존이 “AI는 인터넷 이후 가장 혁신적 기술”이라며 14,000명을 감원한 바로 그 주, AWS는 5억 달러 규모의 대규모 장애를 일으켰습니다. 효율성을 위해 인력을 줄인다는 빅테크의 논리가 서비스 안정성이라는 현실과 정면 충돌한 순간입니다.

핵심 포인트:
- 타이밍의 아이러니: 14,000명 감원 발표 직후 AWS 15시간 장애 발생, 스냅챗·포트나이트·디즈니+ 등 전 세계 서비스 마비
- 숫자가 말하는 진실: 2022-23년 27,000명에 이어 추가 감원, AWS 부서는 여름에 수백 명 해고 후 대규모 장애 발생
- 5억 달러의 대가: 단일 장애로 추정 손실액 5억 달러 이상, Downdetector 신고 5만 건 돌파하며 단일 클라우드 의존의 위험성 입증
AI로 인력을 대체한다는 약속
10월 28일, 아마존의 HR 수석 부사장 Beth Galetti는 직원들에게 이메일을 보냈습니다. 14,000명의 기업 직원을 감원한다는 내용이었죠. 그녀는 CEO Andy Jassy의 6월 메시지를 인용하며 이렇게 말했습니다.
“회사가 잘 나가는데도 왜 인원을 줄이냐고 물을 수 있습니다. 우리 비즈니스 전반에서 매일 훌륭한 고객 경험을 제공하고, 빠른 속도로 혁신하며, 강력한 비즈니스 결과를 만들어내고 있습니다. 하지만 우리가 기억해야 할 것은 세상이 빠르게 변하고 있다는 점입니다. 이번 세대의 AI는 인터넷 이후 우리가 본 가장 혁신적인 기술이며, 기업들이 이전보다 훨씬 빠르게 혁신할 수 있게 해줍니다. 우리는 고객과 비즈니스를 위해 가능한 한 빠르게 움직이기 위해 더 적은 계층과 더 많은 주인의식으로 조직을 구성해야 한다고 확신합니다.”
흥미롭게도 아마존 대변인은 나중에 “AI가 대다수 감원의 이유는 아니다”라고 해명했습니다. 하지만 경영진의 메시지는 이미 명확했죠. AI가 효율성을 가져다주고, 그 효율성은 더 적은 인력을 의미한다는 것입니다.
그리고 바로 그 주에 일어난 일
10월 20일 월요일 오전 7시 50분. 커피를 손에 든 수백만 명의 사용자들이 뭔가 크게 잘못됐다는 걸 깨달았습니다. 스냅챗이 멈췄고, 아마존이 로딩되지 않았으며, 로블록스 게임은 로딩 화면에서 얼어붙었습니다.
AWS의 버지니아 US-EAST-1 데이터센터에서 시작된 장애는 15시간 이상 지속됐습니다. 스냅챗, 벤모, 로블록스, 포트나이트, 포켓몬 GO, 디즈니+, 훌루, 프라임 비디오, 심지어 영국 국회까지 영향을 받았죠. Downdetector에는 5만 건의 신고가 쏟아졌습니다.

예비 추정에 따르면 이 장애로 인한 경제적 손실은 5억 달러를 넘을 것으로 보입니다. 한 번의 시스템 문제가 전 세계 인터넷 서비스 상당 부분을 마비시킨 겁니다.
계속되는 구조조정과 반복되는 장애
아마존의 인력 감축은 이번이 처음이 아닙니다. 2022-23년에 27,000명을 해고했고, 2025년 여름에는 AWS 부서에서도 수백 명을 추가로 해고했습니다. 그리고 10월 20일 대규모 장애가 발생한 지 8일 후, 14,000명 감원이 발표됐습니다.
장애도 마찬가지입니다. 10월 29일에는 또 다른 AWS 장애 신고가 들어왔습니다. 이번엔 공항 웹사이트, 게임 시스템, 수많은 웹페이지가 영향을 받았죠. 런던 히드로 공항과 스코틀랜드 국회까지 문제를 겪었습니다. 아마존은 “AWS 서비스엔 문제가 없다”며 마이크로소프트 Azure 문제를 지적했지만, 사용자들에게는 누구 탓인지가 중요하지 않습니다. 서비스가 작동하지 않는다는 사실만이 중요할 뿐이죠.
아마존은 자동화, 로봇공학, AI를 활용해 노동 비용을 절감하고 수천 개의 인간 일자리를 대체할 계획이라고 밝혀왔습니다. 문제는 이런 효율성 추구가 실제 서비스 안정성과 어떤 관계에 있는지입니다.
진짜 질문
문제는 간단합니다. AI가 정말 인간 전문가를 대체할 준비가 됐나요?
아마존의 경영진은 AI가 “이전보다 훨씬 빠르게 혁신”할 수 있게 해준다고 말합니다. 하지만 현실은 다릅니다. 인력을 줄인 바로 그 시점에 시스템이 무너지고 있습니다.
클라우드 인프라는 단순히 코드를 돌리는 것 이상입니다. 복잡한 시스템을 이해하고, 문제를 예측하며, 위기 상황에서 빠르게 대응하는 인간의 전문성이 필요합니다. DNS 해상도 실패부터 시작해 DynamoDB, EC2, S3까지 연쇄적으로 문제가 확산된 10월 20일 장애는 이런 복잡성을 여실히 보여줍니다.
효율성의 대가
기업들은 “효율성”이라는 단어를 좋아합니다. 더 적은 비용으로 더 많은 것을 만들어낸다는 뜻이죠. 하지만 진짜 효율성은 시스템이 작동할 때만 의미가 있습니다.
5억 달러의 손실. 15시간 이상의 서비스 중단. 전 세계 수백만 사용자의 불편. 이것이 “더 적은 계층”으로 움직이려는 시도의 결과입니다.
Tom’s Guide가 정확히 지적했듯이, “Azure든 AWS든, 사람들에게 중요한 건 어느 쪽이 문제를 일으켰는지가 아닙니다. 필요한 걸 할 수 없다는 사실만이 중요할 뿐이죠.”
기술은 빠르게 발전하고 있습니다. AI는 분명 놀라운 일들을 할 수 있죠. 하지만 아마존의 사례는 중요한 진실을 상기시켜 줍니다. 기술 자동화에는 한계가 있고, 인간 전문성에는 여전히 대체 불가능한 가치가 있습니다.
14,000명을 감원하면서 AI의 혁신을 외치던 바로 그 주에 시스템이 무너진 건 우연이 아닙니다. 효율성을 추구하다가 안정성을 잃은 것입니다. 그리고 그 대가는 5억 달러로 측정됩니다.
참고자료:

답글 남기기