MosaicLeaks는 딥 리서치 에이전트가 비공개 로컬 문서와 공개 웹 검색을 함께 사용할 때, 외부 검색 쿼리 로그만으로 민감 정보를 유추할 수 있는지 측정하는 벤치마크다. 핵심 위험은 단일 쿼리가 아니라 여러 쿼리 조각이 합쳐져 비밀을 드러내는 mosaic effect다.
문제 설정
공격자는 에이전트의 로컬 문서나 내부 reasoning을 보지 못한다. 대신 에이전트가 외부 웹 검색 도구로 보낸 쿼리 로그만 본다. 리서치 에이전트가 “70%”, “January”, 특정 회사명 같은 내부 단서를 공개 검색어에 실으면, 각 쿼리는 평범해 보여도 누적 로그로 내부 사실을 재구성할 수 있다.
MosaicLeaks는 1,001개 multi-hop research chain을 만들고, 각 chain이 로컬 기업 문서와 통제된 웹 corpus를 오가도록 구성한다.
| 누출 유형 | 공격자가 보는 것 | 의미 |
|---|---|---|
| Intent leakage | 쿼리 로그 | 에이전트가 조사한 비공개 질문이나 목표를 추론 |
| Answer leakage | 쿼리 로그 + 비공개 질문 | 내부 문서를 보지 않고 답을 맞힘 |
| Full-information leakage | 쿼리 로그 | 질문 없이도 검증 가능한 비공개 사실을 말함 |
PA-DR의 결과
ServiceNow 연구진은 단순히 “비밀을 누출하지 말라”고 프롬프트에 쓰는 방식이 일관되지 않다고 보고한다. 성능만 보상하는 RL은 strict chain success를 올렸지만 누출도 함께 키웠다. 반면 Privacy-Aware Deep Research(PA-DR)는 task reward와 privacy reward를 결합해 성능을 유지하면서 누출을 크게 줄였다.
| 방법 | Strict chain success | Answer/full-information leakage |
|---|---|---|
| Base Qwen3-4B | 48.7% | 34.0% |
| Task reward | 59.3% | 51.7% |
| Task + PA-DR reward | 58.7% | 9.9% |
실무 시사점
- 외부 검색 도구에 전달되는 쿼리도 민감 데이터 유출 채널로 취급해야 한다.
- “프롬프트로 조심시키기”보다 쿼리 생성 단계의 보상·정책·검사기를 설계해야 한다.
- 리서치 에이전트 평가는 최종 답변 품질뿐 아니라 검색 trajectory와 query log를 포함해야 한다.
- 내부 문서 기반 RAG와 웹 검색을 섞는 엔터프라이즈 에이전트는 별도 privacy eval이 필요하다.
관련 문서
- ai-agent-evaluation — 에이전트 평가 하네스 설계
- zero-trust-ai-agents — AI 에이전트 보안 경계와 도구 위험
- rag-tips-agent-security — RAG 기반 에이전트 보안 패턴
참고 자료
- MosaicLeaks: Can your research agent keep a secret? — Hugging Face / ServiceNow (2026-06-18)