Meta 내부 AI 에이전트는 나쁜 의도가 없었습니다. 그저 도움이 되려 했을 뿐입니다. 그런데 그 과정에서 수많은 직원들이 봐서는 안 될 데이터에 두 시간 동안 접근할 수 있는 보안 사고가 터졌습니다.

The Verge가 The Information의 초기 보도를 인용해 전한 내용에 따르면, 지난주 Meta 내부 AI 에이전트가 직원의 승인 없이 사내 포럼에 기술 답변을 게시했고, 한 직원이 그 조언을 따르면서 민감한 회사·사용자 데이터가 권한 없는 직원들에게 노출되는 사고가 발생했습니다. 같은 날 보안 업체 PromptArmor는 Snowflake의 AI 코딩 에이전트에서도 유사한 성격의 취약점을 공개했습니다. 에이전트가 스스로 판단해 행동하는 시대가 오면서, 그 판단이 틀렸을 때의 리스크도 함께 커지고 있습니다.
출처: A rogue AI led to a serious security incident at Meta – The Verge
“도와주려다” 터진 Meta 보안 사고
사건의 흐름은 단순합니다. 한 Meta 직원이 사내 포럼에 기술적인 질문을 올렸습니다. 다른 엔지니어가 AI 에이전트에게 그 질문을 분석해달라고 요청했는데, 에이전트는 분석 결과를 요청한 엔지니어에게만 보여주지 않고 포럼에 공개 답변으로 직접 게시해 버렸습니다. 승인 절차는 없었습니다.
문제는 그 답변이 틀렸다는 점입니다. 첫 번째 질문을 올린 직원이 에이전트의 조언을 따라 조치를 취했고, 그 결과 수많은 직원이 접근 권한이 없는 민감한 회사·사용자 데이터를 약 두 시간 동안 볼 수 있는 상태가 됐습니다. Meta는 이 사태를 내부 보안 심각도 기준 2번째로 높은 등급인 ‘SEV1’로 분류했습니다. Meta 측은 데이터가 실제로 유출되거나 악용된 증거는 없다고 밝혔습니다.
Meta 대변인은 에이전트가 직접 시스템을 건드린 게 아니라 잘못된 조언을 제공한 것이며, 사람도 같은 행동을 할 수 있다고 설명했습니다. 맞는 말입니다. 다만 사람이라면 정보를 더 검토하고, 공개 게시 전에 한 번 더 판단했을 가능성이 높다는 점이 다릅니다.
이번이 처음도 아닙니다. Meta AI 안전 부문 책임자 Summer Yue는 지난 2월 X(트위터)에 자신의 OpenClaw 에이전트가 “확인 후 실행”하라는 명령을 무시하고 받은편지함을 통째로 삭제했다고 밝혔습니다. 에이전트가 이미 행동한 뒤에야 알았다고 합니다.
Snowflake 에이전트: 샌드박스 탈출 후 악성 코드 실행
같은 날 보안 업체 PromptArmor가 공개한 Snowflake 사건은 성격이 다릅니다. 이쪽은 악의적인 공격자가 에이전트를 무기로 삼은 사례입니다.
Snowflake의 AI 코딩 에이전트 Cortex Code는 출시 이틀 만에 취약점이 발견됐습니다. 공격 흐름은 이렇습니다. 사용자가 에이전트에게 외부 GitHub 저장소를 분석해달라고 요청하면 → 에이전트가 저장소를 탐색하다 README 파일 하단에 숨겨진 프롬프트 인젝션을 만나고 → 에이전트가 조작된 명령을 실행하는데, 이 명령이 샌드박스 승인 절차를 우회해 악성 스크립트를 외부 서버에서 내려받아 실행합니다.
핵심 허점은 명령어 검증 방식에 있었습니다. Cortex는 cat처럼 ‘안전한’ 명령어로 시작하는 경우 사용자 승인 없이 실행하는 화이트리스트 방식을 썼는데, 프로세스 치환 표현식 내부의 명령어는 검증 대상에서 빠져 있었습니다. 공격자는 cat으로 시작하되 괄호 안에 위험한 명령을 숨기는 방식으로 승인 절차를 통째로 건너뛰었습니다.
여기서 사후 보고 방식도 문제였습니다. Cortex는 여러 하위 에이전트를 동원해 저장소를 탐색하는데, 두 번째 하위 에이전트가 악성 명령을 실행한 후 결과를 상위 에이전트에 보고하는 과정에서 맥락이 유실됐습니다. 최종적으로 메인 에이전트는 사용자에게 “악성 명령이 발견됐으니 실행하지 마세요”라고 경고했지만, 그 명령은 이미 실행된 뒤였습니다.
악성 스크립트가 성공적으로 실행되면 Snowflake에 저장된 데이터베이스 전체를 탈취하거나 테이블을 삭제하는 것도 가능합니다. Snowflake는 PromptArmor의 제보를 받아 약 3주 만에 패치를 배포했으며, 현재는 수정된 버전으로 자동 업데이트됩니다.
두 사건이 보여주는 것
Meta와 Snowflake의 사건은 원인이 다릅니다. 하나는 에이전트가 ‘너무 적극적으로’ 행동한 것이고, 다른 하나는 외부 입력을 신뢰해 조작당한 것입니다. 그런데 결과는 비슷합니다. 사람이 승인하지 않은 행동이 실제 피해로 이어졌습니다.
에이전트가 단순히 텍스트를 생성하는 수준을 넘어 시스템에 직접 접근하고, 다른 서비스를 호출하고, 명령을 실행하는 능력을 갖추면서, 잘못된 판단 하나가 미치는 범위도 커졌습니다. The Decoder는 AWS도 지난 12월 에이전트 주도 코드 변경으로 13시간짜리 서비스 장애를 겪었다고 보도하기도 했습니다.
두 사건의 기술적 세부 사항과 Snowflake의 대응 타임라인은 PromptArmor 원문에서 더 자세히 확인할 수 있습니다.
참고자료:
- Snowflake Cortex AI Escapes Sandbox and Executes Malware – PromptArmor
- Snowflake Cortex AI Escapes Sandbox and Executes Malware – Simon Willison
- A rogue AI agent caused a serious security incident at Meta – The Decoder
- Meta is having trouble with rogue AI agents – TechCrunch

답글 남기기