AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

MosaicLeaks – 리서치 에이전트의 웹 검색 쿼리에서 새는 기업 비밀 벤치마크

MosaicLeaks는 딥 리서치 에이전트가 비공개 로컬 문서와 공개 웹 검색을 함께 사용할 때, 외부 검색 쿼리 로그만으로 민감 정보를 유추할 수 있는지 측정하는 벤치마크다. 핵심 위험은 단일 쿼리가 아니라 여러 쿼리 조각이 합쳐져 비밀을 드러내는 mosaic effect다.

문제 설정

공격자는 에이전트의 로컬 문서나 내부 reasoning을 보지 못한다. 대신 에이전트가 외부 웹 검색 도구로 보낸 쿼리 로그만 본다. 리서치 에이전트가 “70%”, “January”, 특정 회사명 같은 내부 단서를 공개 검색어에 실으면, 각 쿼리는 평범해 보여도 누적 로그로 내부 사실을 재구성할 수 있다.

MosaicLeaks는 1,001개 multi-hop research chain을 만들고, 각 chain이 로컬 기업 문서와 통제된 웹 corpus를 오가도록 구성한다.

누출 유형공격자가 보는 것의미
Intent leakage쿼리 로그에이전트가 조사한 비공개 질문이나 목표를 추론
Answer leakage쿼리 로그 + 비공개 질문내부 문서를 보지 않고 답을 맞힘
Full-information leakage쿼리 로그질문 없이도 검증 가능한 비공개 사실을 말함

PA-DR의 결과

ServiceNow 연구진은 단순히 “비밀을 누출하지 말라”고 프롬프트에 쓰는 방식이 일관되지 않다고 보고한다. 성능만 보상하는 RL은 strict chain success를 올렸지만 누출도 함께 키웠다. 반면 Privacy-Aware Deep Research(PA-DR)는 task reward와 privacy reward를 결합해 성능을 유지하면서 누출을 크게 줄였다.

방법Strict chain successAnswer/full-information leakage
Base Qwen3-4B48.7%34.0%
Task reward59.3%51.7%
Task + PA-DR reward58.7%9.9%

실무 시사점

  • 외부 검색 도구에 전달되는 쿼리도 민감 데이터 유출 채널로 취급해야 한다.
  • “프롬프트로 조심시키기”보다 쿼리 생성 단계의 보상·정책·검사기를 설계해야 한다.
  • 리서치 에이전트 평가는 최종 답변 품질뿐 아니라 검색 trajectory와 query log를 포함해야 한다.
  • 내부 문서 기반 RAG와 웹 검색을 섞는 엔터프라이즈 에이전트는 별도 privacy eval이 필요하다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)