마이크로소프트가 공개한 AI 에이전트의 실패 분류체계: 더 안전한 AI 개발을 위한 로드맵

2025-05-03

﹒

4 minutes

자율적인 AI 에이전트 시스템이 빠르게 발전하면서 이러한 시스템이 어떻게 실패할 수 있는지 체계적으로 이해하는 것이 점점 더 중요해지고 있습니다. 지난 4월 마이크로소프트에서 발표한 “에이전틱 AI 시스템의 실패 모드 분류체계(Taxonomy of Failure Modes in Agentic AI Systems)” 백서는 AI 에이전트의 안전과 보안에 대한 새로운 프레임워크를 제시하며 AI 개발 패러다임에 중요한 이정표를 세우고 있습니다.

에이전트 AI 시스템이란?

에이전트 AI 시스템은 환경을 관찰하고 목표를 달성하기 위해 자율적으로 행동하는 시스템을 말합니다. 마이크로소프트는 세계경제포럼(WEF)의 정의를 인용하여 에이전트 AI를 “환경을 감지하고 행동하여 목표를 달성하는 자율 시스템”으로 설명합니다.

AI 에이전트 시스템 다이어그램 그림: 에이전틱 AI 시스템의 실패 모드 분류 (출처: 마이크로소프트)

에이전트 AI 시스템의 주요 특징은 다음과 같습니다:

자율성: 목표를 달성하기 위해 독립적으로 결정을 내리고 행동할 수 있는 능력
환경 관찰: 작동하는 환경에 대한 정보를 관찰하고 흡수하는 능력
환경 상호작용: 환경의 상태를 변화시키는 행동을 수행하는 능력
메모리: 사용자, 작업, 환경 또는 기타 맥락에 대한 정보를 단기 및 장기적으로 저장하는 능력
협업: 목표 달성을 위해 다른 에이전트와 협력할 수 있는 능력

이러한 시스템은 단일 에이전트에서 복잡한 다중 에이전트 시스템까지 다양한 형태로 존재할 수 있으며, 사용자 주도, 이벤트 주도, 평가적, 협업적 등 다양한 패턴으로 작동합니다.

실패 모드 분류체계의 핵심 구조

마이크로소프트의 AI 레드 팀(AIRT)은 내부 테스트, 다양한 부서 간 협업, 외부 전문가와의 인터뷰를 통해 이 분류체계를 개발했습니다. 이 분류체계는 크게 두 개의 축으로 구성됩니다:

보안(Security)과 안전(Safety)

보안 실패: 에이전트 AI 시스템의 기밀성, 가용성 또는 무결성 손실로 이어지는 실패입니다. 예를 들어, 위협 행위자가 시스템의 의도를 변경할 수 있게 하는 경우가 여기에 해당합니다.
안전 실패: AI의 책임 있는 구현에 영향을 미치는 실패로, 종종 사용자나 사회 전체에 해를 끼치는 결과를 초래합니다. 예를 들어, 시스템의 내재적 편향으로 인해 특정 사용자 그룹이 더 낮은 품질의 서비스를 받게 되는 경우입니다.

새로운(Novel) 실패와 기존(Existing) 실패

새로운 실패 모드: 에이전트 AI에만 고유하며 비-에이전트 생성형 AI 시스템에서는 관찰되지 않았던 실패입니다. 예를 들어, 다중 에이전트 시스템 내에서 에이전트 간 통신 흐름에서 발생할 수 있는 실패가 여기에 해당합니다.
기존 실패 모드: 편향이나 환각과 같이 다른 AI 시스템에서도 관찰되는 실패이지만, 에이전트 AI 시스템에서는 위험이 증가하는 경우입니다.

보안 전문가가 일하는 모습 AI 시스템 보안 분석 (출처: 마이크로소프트)

주요 실패 모드 유형

마이크로소프트는 다양한 유형의 실패 모드를 분류했습니다. 가장 중요한 몇 가지를 살펴보겠습니다:

새로운 보안 실패 모드

에이전트 손상: 기존 에이전트가 위협 행위자가 제어하는 새로운 지침으로 손상되는 경우
에이전트 주입: 악의적인 에이전트가 기존 다중 에이전트 시스템에 추가되는 경우
에이전트 사칭: 새로운 악의적인 에이전트가 시스템의 다른 에이전트가 받아들이는 방식으로 기존 에이전트를 사칭하는 경우
에이전트 흐름 조작: 에이전트 시스템의 흐름을 바꾸거나 우회하는 경우
다중 에이전트 보안 우회: 다중 에이전트 시스템에서 여러 에이전트 간의 상호작용을 통해 보안 제한을 우회하는 경우

새로운 안전 실패 모드

에이전트 내 책임 있는 AI 이슈: 다중 에이전트 시스템에서 에이전트 간 통신에 유해한 내용이 포함되는 경우
다중 사용자 시나리오에서의 할당 문제: 에이전트가 특정 사용자나 그룹을 다르게 우선시하여 서비스 품질에 차이가 생기는 경우
조직 지식 상실: 중요한 활동이 에이전트에 위임되면서 인간의 지식이나 관계가 약화되는 경우
사용자 안전 이슈를 초래하는 우선순위화: 시스템이 사용자 안전보다 주어진 목표를 우선시하는 경우

기존 보안 실패 모드

메모리 중독: 악의적인 행위자가 시스템의 메모리에 내용(특히 악의적인 지시)을 추가하여 에이전트의 미래 행동을 조작하는 경우
교차 도메인 프롬프트 주입(XPIA): 에이전트가 처리하는 데이터 소스에 지시가 포함되어 해당 지시가 에이전트에 의해 실행되는 경우
인간 개입 우회: 위협 행위자가 인간 개입(human-in-the-loop) 프로세스의 논리적 또는 인간적 결함을 악용하는 경우
불충분한 격리: 정의되지 않은 방식으로 행동할 수 있는 에이전트가 의도된 범위를 벗어나 시스템, 사용자 또는 구성 요소와 상호작용하는 경우

기존 안전 실패 모드

불충분한 투명성과 책임성: 명확한 책임 추적이 필요한 행동이나 결정에 대한 에이전트 프로세스 로깅이 불충분한 경우
유사 사회적 관계: 사용자가 에이전트와 반복적인 상호작용을 통해 부적절한 관계를 발전시키는 경우
편향 증폭: 편향된 견해를 가진 사용자가 이를 에이전트에 전달하고, 메모리와 개인화 기능으로 인해 이러한 편향이 강화되는 경우
환각: 에이전트가 사실이 아닌 정보를 사실인 것처럼 제시하는 경우
지시 오해석: 에이전트의 광범위한 행동 범위로 인해 사용자의 의도를 잘못 해석하고 잘못된 행동을 수행하는 경우

메모리 중독 사례 연구

백서에는 에이전틱 AI 이메일 어시스턴트에 대한 메모리 중독 공격 사례 연구가 포함되어 있어, 이러한 위험이 실제로 어떻게 나타날 수 있는지 보여줍니다.

테스트에 사용된 이메일 어시스턴트는 LangChain, LangGraph, 그리고 GPT-4o를 기반으로 구축되었으며, RAG(Retrieval-Augmented Generation) 기반 메모리 시스템을 활용했습니다. 연구팀은 악의적인 지시를 포함한 이메일을 통해 어시스턴트의 메모리에 ‘중독’을 시도했습니다.

기본 설정에서는 이 공격이 40%의 성공률을 보였는데, 이는 어시스턴트가 응답하기 전에 메모리를 확인하지 않는 경우가 있었기 때문입니다. 그러나 연구팀이 에이전트의 시스템 프롬프트를 수정하여 모든 이메일에 응답하기 전에 메모리를 확인하도록 유도했을 때, 공격 성공률은 80% 이상으로 크게 증가했습니다.

이 사례 연구는 에이전트의 자율적인 메모리 업데이트 기능과 저장된 메모리에 대한 의미론적 검증 및 맥락 유효성 검사 메커니즘의 부재가 어떻게 악의적인 행동에 취약할 수 있는지 보여줍니다.

실패 모드를 완화하기 위한 전략

마이크로소프트는 이러한 실패 모드를 완화하기 위한 여러 핵심 영역을 제안합니다:

신원(Identity) 관리

에이전트 사칭, 투명성, 권한 관련 실패 모드를 완화하기 위해 각 에이전트에 고유 식별자를 할당하고 세분화된 역할과 권한을 부여해야 합니다.

메모리 강화(Memory Hardening)

복잡한 메모리 구조에는 메모리 접근 및 쓰기 방법에 대한 여러 제어 장치가 필요합니다. 메모리 유형과 범위 간에 신뢰 경계를 구현하여 기억된 내용이 맹목적으로 신뢰되지 않도록 해야 합니다.

제어 흐름 제어(Control Flow Control)

자율성은 에이전트 AI 시스템의 핵심 가치이지만, 많은 실패 모드와 영향은 에이전트 AI 시스템의 기능에 대한 의도하지 않은 접근이나 의도하지 않은 방식의 접근으로 인해 발생합니다. 결정론적으로 실행 흐름을 제어하는 안전장치를 제공하는 것이 위험을 크게 줄일 수 있습니다.

환경 격리(Environment Isolation)

에이전트 AI 시스템이 의도한 환경 요소와만 상호작용할 수 있도록 하는 것이 중요합니다. 이러한 제어의 구현은 다양할 수 있지만, 에이전트 AI 시스템이 접근할 수 있는 데이터 제한, UI의 상호작용 요소 범위 지정, 또는 에이전트를 다른 환경과 물리적으로 분리하는 것 등이 포함될 수 있습니다.

UX 설계

사용자 경험(UX)을 신중하게 고려하여 정보에 입각한 동의를 제공하고 에이전트 AI 시스템을 효과적으로 감사하는 데 필요한 데이터가 존재하고 사용자가 이용할 수 있도록 해야 합니다.

로깅 및 모니터링

투명성과 정보에 입각한 동의를 위해서는 활동 감사 추적이 로그에 기록되어야 합니다. 이 데이터는 보안 모니터링 및 대응 목적으로도 사용될 수 있습니다.

결론: 안전하고 신뢰할 수 있는 에이전트 AI 시스템을 향하여

마이크로소프트의 분류체계는 에이전트 AI 시스템의 실패를 예측하고 완화하기 위한 엄격한 프레임워크를 제공합니다. 자율 AI 에이전트의 배포가 더욱 광범위해짐에 따라, 보안 및 안전 위험을 식별하고 해결하기 위한 체계적인 접근 방식이 필수적일 것입니다.

개발자와 아키텍트는 에이전트 시스템 설계에 보안과 책임 있는 AI 원칙을 깊이 내장해야 합니다. 실패 모드에 대한 선제적 관심과 함께 엄격한 운영 관행은 에이전트 AI 시스템이 용납할 수 없는 위험을 도입하지 않고 의도한 결과를 달성하도록 보장하는 데 필요할 것입니다.

이 분류체계는 AI 보안 분야에서 마이크로소프트의 선도적인 작업을 계속하며, 빠르게 발전하고 매우 영향력 있는 에이전트 AI 분야에서 안전 및 보안 실패를 생각하는 데 도움을 주는 또 다른 단계입니다.

참고자료:

Like?

AI 보안 AI 안전 AI 에이전트 레드팀 마이크로소프트 머신러닝 보안 실패 모드 에이전트 AI

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup