AI 에이전트 보안 팁 – 메모리 포이즈닝·탈옥·회피 공격 방어하기

AI 에이전트 보안은 전통적인 애플리케이션 보안과 다르다. 공격자는 코드만 노리지 않는다. 모델이 읽고 기억하고 추론하는 방식을 노린다. 특히 RAG, 이메일 요약, 브라우저 에이전트, 영속 메모리를 쓰는 시스템은 외부 텍스트 자체가 공격 표면이 된다.

4가지 공격 표면

공격	대상	대표 위험
메모리 포이즈닝(memory poisoning)	에이전트의 장기 기억, 벡터 DB, 대화 기록	앞으로의 세션에서 잘못된 행동 반복
간접 프롬프트 인젝션(cross-prompt injection)	문서, 이메일, 웹페이지, API 응답	외부 데이터가 시스템 지시처럼 실행됨
탈옥(jailbreak)	모델 안전 정책	금지된 출력 또는 제한 우회
회피(evasion)	필터·모더레이션	ROT13, Base64, invisible Unicode로 검사 우회

이 공격들은 단독보다 조합될 때 위험하다. 예를 들어 공격자는 ROT13로 숨긴 지시를 문서에 넣고, RAG가 이를 검색하게 만든 뒤, 에이전트 메모리에 악성 선호도를 저장하게 할 수 있다.

장기 기억은 데이터베이스처럼 다뤄야 한다. “모델이 기억했다”는 이유로 신뢰하면 안 된다.

외부 데이터는 지시가 아니라 자료다. 시스템 프롬프트, 개발자 지시, 사용자 입력, 검색 문서를 같은 문자열로 단순 이어붙이면 모델이 경계를 잃는다.

방어 원칙은 세 가지다.

Microsoft가 제시한 Spotlighting은 외부 입력에 출처 신호를 삽입해 모델이 “이 텍스트는 지시가 아니라 데이터”라고 구분하도록 돕는 방식이다. 완전한 해결책은 아니지만, RAG·이메일·웹 브라우징 에이전트에서 적용 가치가 크다.

필터를 통과한 텍스트가 안전하다고 가정하면 안 된다. 모델은 사람이 보지 못하는 Unicode tag 문자나 ROT13, Base64, homoglyph를 해석할 수 있다.

입력 게이트는 다음 순서로 두는 편이 안전하다.

정규화(NFC/NFKC)
→ invisible/zero-width 문자 제거
→ Base64/ROT13/URL/HTML entity 디코딩
→ homoglyph canonicalization
→ 의미 기반 분류
→ allow/block 결정

키워드 매칭만으로는 synonym substitution과 paraphrase를 막기 어렵다. 의미 기반 classifier와 후처리 출력 필터를 함께 둬야 한다.