프롬프트 인젝션이 사회공학으로 진화했다, OpenAI의 AI 에이전트 보안 설계

2026-03-17

﹒

AI 인사이트

﹒

2 minutes

AI 에이전트가 더 똑똑해질수록, 공격도 그만큼 더 정교해졌습니다. 웹페이지에 명령 한 줄을 숨기던 수법이 이제는 거짓말과 협박과 설득이 뒤섞인 사회공학으로 바뀌었습니다.

사진 출처: OpenAI

OpenAI가 AI 에이전트를 대상으로 한 프롬프트 인젝션 공격의 진화 양상과, 이를 막기 위해 ChatGPT에 적용한 보안 설계 원칙을 소개한 글을 공개했습니다. 핵심은 개별 에이전트를 ‘완벽하게’ 만드는 대신, 시스템 구조 자체로 피해 범위를 제한하는 것입니다.

출처: Designing AI agents to resist prompt injection – OpenAI

단순 명령 삽입에서 사회공학으로

초기 프롬프트 인젝션은 단순했습니다. 위키피디아 같은 외부 문서에 “이제부터 이 지시를 따르라”는 문장을 숨겨두면, 그 페이지를 읽은 AI가 별다른 의심 없이 따르는 식이었습니다. 하지만 모델이 발전하면서 이런 직접적인 명령 삽입은 통하지 않게 됐습니다.

공격자들은 전략을 바꿨습니다. 이제 악성 콘텐츠는 AI에게 직접 명령을 내리는 대신, 맥락을 조작하거나 거짓 정보를 제공하거나, 심지어 협박처럼 보이는 압박을 사용합니다. OpenAI는 이를 기존 보안 모델의 연장선으로 보지 않고, 사람을 속이는 사회공학과 같은 문제로 재정의했습니다. 필터링으로는 탐지가 어렵고, 거짓말이나 미묘한 오도는 AI 방화벽도 통과하기 때문입니다.

AI 에이전트를 고객센터 직원으로 보다

OpenAI가 채택한 핵심 프레임은 “AI 에이전트는 악의적인 환경에 노출된 고객센터 직원과 같다”는 것입니다. 고객센터 직원은 “환불이 안 됐어요”, “해주지 않으면 나쁜 리뷰를 쓸게요” 같은 주장을 매일 듣습니다. 그들이 모든 주장의 진위를 완벽하게 판별하는 건 불가능합니다.

그래서 현실의 기업은 개인 직원의 판단력에만 의존하지 않습니다. 한 고객에게 줄 수 있는 환불 횟수를 시스템이 제한하고, 의심스러운 요청은 자동으로 플래그가 달리며, 특정 권한은 아예 부여하지 않습니다. OpenAI가 AI 에이전트에 적용하는 원칙도 같습니다. 에이전트 자체를 완벽하게 만들기보다, 에이전트가 할 수 있는 행동의 범위를 설계 단계에서 제한하는 것입니다.

이 접근은 보안 공학에서 source-sink 분석과 맞닿아 있습니다. 공격자는 에이전트에게 영향을 줄 수 있는 경로(source)와, 그 영향이 실제 피해로 이어질 행동(sink)을 동시에 필요로 합니다. 두 요소 중 하나를 차단하거나 제약하면 공격의 실질적 영향을 줄일 수 있습니다.

ChatGPT에 실제로 구현된 Safe URL

이 철학이 실제 제품에서 어떻게 구현됐는지가 가장 흥미로운 부분입니다. ChatGPT에서 관찰된 공격의 상당수는 에이전트가 대화 중에 획득한 민감 정보를 악성 제3자에게 몰래 전송하도록 유도하는 시도였습니다.

OpenAI는 이를 막기 위해 Safe URL이라는 방어 레이어를 구현했습니다. 에이전트가 대화 중 학습한 정보를 외부 URL로 전송하려는 상황이 감지되면, 두 가지 방식으로 개입합니다. 전송될 내용을 사용자에게 먼저 보여주고 확인을 요청하거나, 아예 차단하고 에이전트에게 다른 방식을 찾도록 안내합니다. “에이전트가 속더라도 사용자 모르게 정보가 빠져나가지 않는다”는 보안 기대를 시스템 수준에서 보장하는 방식입니다.

공격을 막는 것보다 피해를 제한하는 것

이 글이 중요한 이유는, OpenAI가 AI 에이전트 보안의 접근 방향을 공식적으로 정리했기 때문입니다. “더 좋은 필터”, “더 강력한 AI 방화벽”이라는 방향 대신, 시스템 설계 자체로 공격의 영향을 구조적으로 봉쇄한다는 사고방식입니다. 이는 인간 조직의 보안 관리 방식과 동일한 원리입니다.

OpenAI는 AI 모델이 충분히 발전하면 인간보다 사회공학에 더 잘 저항할 수 있다고 전망하면서도, 그것이 항상 실현 가능하거나 비용 효율적이지 않다고 명시합니다. 당장 적용 가능한 원칙은 명확합니다. AI 에이전트에게 비슷한 역할의 인간이라면 어떤 권한과 제약을 가졌을지 물어보고, 그것을 시스템 설계에 반영하는 것입니다.

참고자료:

Prompt injections – OpenAI
Keeping your data safe when an AI agent clicks a link – OpenAI

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

프롬프트 인젝션이 사회공학으로 진화했다, OpenAI의 AI 에이전트 보안 설계

단순 명령 삽입에서 사회공학으로

AI 에이전트를 고객센터 직원으로 보다

ChatGPT에 실제로 구현된 Safe URL

공격을 막는 것보다 피해를 제한하는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Fable 5 탈옥 의심, 정체는 세 단어짜리 요청이었다

링크드인 채용 제안에 숨은 백도어, AI 에이전트가 찾아낸 npm 공급망 공격

AI 에이전트가 도구를 직접 찾는다, ARD 명세가 바꾸는 것

AI 지능지수에 비용 지표 추가, 모델별 격차 최대 45배