AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

아마존 AI 코딩 장애, 시니어 엔지니어가 AI 코드 검수하는 구조로 바꾸다

지난 3월 5일, 아마존 쇼핑몰이 6시간 동안 멈췄습니다. 결제도, 로그인도, 가격 확인도 안 됐습니다. 며칠 뒤 아마존은 내부 회의를 열었고, 거기서 나온 해법은 예상 밖이었습니다. AI 사용을 줄이는 게 아니라, 사람을 더 끼워 넣는 것이었습니다.

사진 출처: Futurism

아마존이 최근 잇따른 서비스 장애의 원인을 내부적으로 점검하고, AI 코딩 도구 사용 방식을 전면 재정비했습니다. 이커머스 부문 수석 부사장 데이브 트레드웰(Dave Treadwell)이 직원들에게 보낸 이메일에서 “최근 사이트와 인프라의 안정성이 좋지 않다”고 인정하며, 임시 안전 조치를 도입한다고 밝혔습니다. 핵심은 주니어·중간급 엔지니어가 AI 보조로 작성한 코드를 시니어 엔지니어가 반드시 승인해야 한다는 것입니다.

출처: Amazon Admits Extensive AI Use Is Wreaking Havoc on Its Core Business – Futurism

무슨 일이 있었나

3월 5일, 아마존 쇼핑 사이트와 앱이 약 6시간 동안 작동 불능 상태에 빠졌습니다. 고객들은 결제, 로그인, 상품 가격 확인 모두 할 수 없었습니다. 아마존은 “소프트웨어 코드 배포 과정의 문제”라고 설명했죠.

이 사건만이 아닙니다. 내부 문서에 따르면 3분기 이후 “GenAI 보조 변경”과 연관된 장애가 반복적으로 발생했으며, 이를 내부에서는 ‘고폭반경(high blast radius)’, 즉 영향 범위가 매우 넓은 사고로 분류했습니다. AWS에서도 지난해 말 자사 AI 코딩 도구 Kiro가 코드 환경 전체를 삭제하고 재생성하는 사고가 있었습니다. 아마존은 “사용자 실수”였다고 해명했지만, 유사한 사고는 반복되고 있었습니다.

대응: 시니어 엔지니어를 ‘인간 필터’로

아마존이 내놓은 해법은 AI를 덜 쓰는 게 아니라, 검수 체계를 강화하는 방향입니다. 구체적으로는 주니어·중간급 엔지니어가 AI를 활용해 작성한 코드를 프로덕션 환경에 반영하려면 시니어 엔지니어의 사전 승인이 필요합니다. 기존에도 코드 리뷰는 있었지만, AI 생성 코드에 대한 별도의 승인 절차가 생긴 건 새로운 변화입니다.

트레드웰은 이를 “임시 안전 조치”라고 표현했고, 더 장기적으로는 결정론적(deterministic) 방식과 에이전틱(agentic) 방식을 결합한 자동화된 안전장치를 개발하겠다고 밝혔습니다. 사람이 직접 거르는 지금의 방식은 과도기적 대응인 셈입니다.

더 적은 사람으로, 더 많은 AI 코드를

이 대응이 묘한 이유는 맥락 때문입니다. 아마존은 개발자의 80%가 AI 코딩 도구를 주 1회 이상 쓰도록 내부 목표를 설정한 상태입니다. 동시에 지난 1월 약 1만6천 명을 포함해 최근 몇 년간 수만 명을 감원했습니다. AI 코드는 더 늘리고, 이를 검수할 사람은 줄이는 구조에서 시니어 엔지니어에게 검수 부담이 집중되는 형태가 되었습니다.

AI 코딩 도구는 코드 생산 속도를 높여주지만, 의도치 않은 동작이나 엣지 케이스를 놓치는 일도 잦습니다. 속도가 빨라진 만큼 실수가 프로덕션까지 빠르게 도달할 가능성도 함께 커집니다.

아마존의 이번 조치는 “AI가 코드를 만들고, 사람이 검증한다”는 새로운 협업 구조가 사실상 표준으로 자리잡아가고 있음을 보여줍니다. 다만 그 구조를 얼마나 적은 인원으로 유지할 수 있을지는 여전히 열린 질문입니다. 사건의 상세한 전말과 아마존의 공식 입장 변화 과정은 원문에서 확인하실 수 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다