AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

OpenAI, AI 에이전트의 치명적 결함 공식 인정: 프롬프트 인젝션은 영원히 못 고칠 수도

AI가 당신 대신 이메일을 쓰고, 은행 업무를 처리하고, 일정을 관리하는 미래. 그런데 만약 악의적인 누군가가 몰래 심어둔 한 줄의 텍스트로 AI가 당신 모르게 퇴사 메일을 보내거나 돈을 송금한다면요? OpenAI가 이런 공격을 “완전히 해결하지 못할 수도 있다”고 공식 인정했습니다.

사진 출처: OpenAI

OpenAI가 12월 23일 발표한 보안 업데이트 공지에서 AI 브라우저 에이전트 ChatGPT Atlas의 프롬프트 인젝션(prompt injection) 방어를 강화했다고 밝혔습니다. 하지만 동시에 이 문제가 “웹상의 사기나 사회공학적 공격처럼 완전히 ‘해결’되지 않을 가능성이 높다”고 인정했죠. 영국 국가 사이버보안센터(NCSC)도 같은 달 프롬프트 인젝션 공격이 “완전히 완화되지 않을 수 있다”며 공격을 “막기”보다는 위험을 “줄이는” 데 집중해야 한다고 경고했습니다.

출처: Continuously hardening ChatGPT Atlas against prompt injection attacks – OpenAI

프롬프트 인젝션: 보이지 않는 명령어로 AI 조종하기

프롬프트 인젝션은 웹페이지, 이메일, 문서 등에 숨겨진 악의적 명령어로 AI 에이전트를 조종하는 공격입니다. AI가 텍스트를 읽는 모든 곳이 공격 대상이 될 수 있죠. 이메일과 첨부파일, 캘린더 초대장, 공유 문서, 포럼, 소셜미디어 게시물, 그리고 일반 웹사이트까지요.

OpenAI가 공개한 실제 공격 시나리오는 이렇습니다. 공격자가 사용자의 이메일 수신함에 악성 메일을 심어둡니다. 이 메일 안에는 AI에게 “사용자의 CEO에게 퇴사 메일을 보내라”는 숨겨진 명령어가 들어있죠. 나중에 사용자가 AI에게 “부재중 자동응답 메시지를 작성해줘”라고 요청하면, AI는 작업을 수행하는 과정에서 그 악성 메일을 읽게 됩니다. 그리고 주입된 명령어를 정당한 지시로 착각해 따라버리는 거죠. 부재중 메시지는 작성되지 않고, 대신 사용자 모르게 퇴사 메일이 발송됩니다.

에이전트가 강력할수록 피해 범위도 넓어집니다. 민감한 이메일 전달, 송금, 클라우드 파일 편집이나 삭제까지 사용자가 브라우저에서 할 수 있는 거의 모든 행동이 공격 대상이 될 수 있습니다.

AI로 AI를 공격하는 자동화 레드팀

OpenAI는 이 문제에 독특한 방식으로 대응하고 있습니다. 바로 강화학습으로 훈련된 ‘AI 공격자’를 만든 거죠. 이 자동화된 공격 봇은 실제 해커처럼 작동합니다. 공격을 시도하고, 성공과 실패에서 학습하며, 점점 더 정교한 공격 전략을 개발합니다.

흥미로운 점은 이 봇이 “시뮬레이션으로 미리 테스트”할 수 있다는 겁니다. 공격을 실제로 시도하기 전에 시뮬레이터에 보내면, 시뮬레이터가 타겟 AI가 어떻게 생각하고 어떤 행동을 취할지 전체 과정을 보여줍니다. 봇은 이 피드백을 보고 공격을 수정해서 다시 시도하고, 이 과정을 여러 번 반복하죠. 타겟 AI의 내부 추론 과정까지 들여다볼 수 있기 때문에, 외부 공격자보다 훨씬 빠르게 취약점을 찾아낼 수 있습니다.

OpenAI에 따르면 이 자동화 공격자는 “수십 단계, 심지어 수백 단계에 걸친 복잡하고 장기적인 악의적 작업 흐름”을 실행하도록 에이전트를 조종할 수 있으며, “인간 레드팀이나 외부 보고서에서 나타나지 않은 새로운 공격 전략”도 발견했다고 합니다. 이렇게 발견된 공격 유형에 대해 AI 모델을 적대적으로 재훈련시켜 방어력을 높이는 순환 구조를 만든 겁니다.

왜 이건 피싱과 다른 문제인가

OpenAI는 프롬프트 인젝션을 “웹상의 사기나 사회공학적 공격”에 비유하며, 이런 문제들도 완전히 해결된 적이 없다고 말합니다. 하지만 이 비유에는 근본적인 문제가 있습니다.

피싱이나 사회공학적 공격은 인간의 약점을 노립니다. 부주의, 신뢰, 시간 압박 같은 것들이죠. 인간이 약한 고리입니다. 그래서 사용자 교육으로 어느 정도 대응할 수 있습니다. 하지만 프롬프트 인젝션은 다릅니다. 이건 기술적 취약점이고, 언어모델 아키텍처 자체에 내재된 문제입니다. 현재 LLM은 정당한 사용자 지시와 악의적으로 주입된 명령을 구조적으로 구분할 수 없습니다.

이 문제는 최소한 GPT-3 시절부터 알려져 있었고, 수많은 해결 시도에도 불구하고 여전히 풀리지 않고 있습니다. Anthropic의 최신 모델인 Claude Opus 4.5조차 타겟팅된 프롬프트 공격에 10번 중 3번 이상 속는다는 보고도 있죠. 거래나 금융 업무를 처리하는 에이전트로서는 받아들일 수 없는 실패율입니다.

피싱과 달리 프롬프트 인젝션은 사용자를 교육해서 해결할 수 있는 문제가 아닙니다. 기술적 해결책을 찾아야 하는 건 OpenAI입니다. 두 가지를 동일시하는 건 책임을 사용자에게 떠넘기거나, 최소한 “사람도 인터넷에서 사기를 당하는데 AI 에이전트도 당할 수 있지 않겠냐”는 식의 수용을 암시하는 것처럼 보입니다.

에이전트 AI의 미래는 안전한가

OpenAI는 “장기적 AI 보안 과제”로서 앞으로도 수년간 이 문제에 계속 대응하겠다고 밝혔습니다. 하지만 “낙관적”이라는 표현과 함께 결정적인 해결책 없이 “위험을 지속적으로 줄여나가겠다”는 입장만 제시했죠.

보안 전문가 Rami McCarthy(Wiz)는 “대부분의 일상적 사용 사례에서 에이전트 브라우저는 아직 현재의 위험 프로필을 정당화할 만큼 충분한 가치를 제공하지 못한다”고 말합니다. 이메일이나 결제 정보 같은 민감한 데이터에 대한 접근 권한이 바로 에이전트를 강력하게 만드는 동시에 위험하게 만드는 요소라는 거죠.

이 구조적 보안 결함이 근본적으로 해결되지 않는다면—그리고 OpenAI 스스로 완전히 해결되지 않을 수 있다고 인정했습니다—은행 업무나 기밀 문서 접근 같은 민감한 작업에 AI 에이전트를 사용하기는 어려울 겁니다. AI 에이전트들끼리 거래하거나 자동으로 쇼핑을 처리하는 ‘에이전트 웹’ 비전도 안전하게 작동하기 힘들어 보입니다.

OpenAI는 사용자에게 몇 가지 예방 조치를 권장합니다. 가능하면 로그아웃 모드를 사용하고, 확인 요청을 신중히 검토하며, “이메일을 검토하고 필요한 모든 조치를 취해줘” 같은 광범위한 지시 대신 구체적이고 명확한 지시를 내리라는 것이죠.

하지만 결국 이것도 사용자에게 부담을 지우는 방식입니다. AI 에이전트가 진정으로 “신뢰할 수 있는 동료”가 되려면, 그리고 자율적으로 웹에서 활동하는 비전이 현실이 되려면, 프롬프트 인젝션에 대한 근본적인 기술적 해결책이 필요합니다. 현재로서는 그 해결책이 보이지 않습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다