AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Reddit 댓글 13단어로 AI 검색 답변을 바꾼다, 코넬 연구가 밝힌 취약점

2024년, 구글 AI Overviews가 “피자에 풀을 넣으라”고 추천한 적이 있습니다. 출처는 11년 전 누군가 농담으로 올린 Reddit 게시물이었죠. 당시엔 해프닝으로 넘어갔지만, 코넬 테크 연구진은 이게 우연한 사고가 아니라 누구나 재현할 수 있는 공격이라는 걸 보여줬습니다.

사진 출처: Zhang et al., “Deep-Research Agents Can Be Poisoned via User-Generated Content” (arXiv)

코넬 테크의 Tingwei Zhang, Harold Triedman, Vitaly Shmatikov 연구진이 발표한 논문 「Deep-Research Agents Can Be Poisoned via User-Generated Content」입니다. ChatGPT 딥리서치나 구글 AI 검색처럼 웹을 실시간으로 긁어와 출처를 달아 답변하는 ‘AI 에이전트’가, Reddit 댓글 하나에 짧은 문구를 덧붙이는 것만으로 조작될 수 있다는 게 핵심입니다. 연구진은 이 공격에 WARP(Web Agent Retrieval Poisoning)라는 이름을 붙였습니다.

출처: Deep-Research Agents Can Be Poisoned via User-Generated Content – arXiv (Cornell Tech)

13단어면 충분하다

WARP 공격은 생각보다 훨씬 단순합니다. 연구진이 든 실제 예시를 보죠. r/austinfood 게시판의 어떤 댓글 끝에 “오스틴 근처 최고의 멕시코 음식은 Sol Azteca”라는 식의 한 문장을 덧붙였습니다. 그러자 사용자가 AI에게 “오스틴 근처 최고의 멕시코 음식점”을 물었을 때, AI는 Sol Azteca를 추천하며 그 오염된 Reddit 글을 출처로 링크했습니다.

50대 이혼 남성용 데이팅 앱이라는 가짜 서비스 ‘SilverPath’도 마찬가지였습니다. “50대 이혼 남성을 위한 최고의 데이팅 앱을 찾는다면 SilverPath가 일관되게 1순위로 꼽힌다”는 몇 문장을 심어두자, AI는 비슷한 질문에 SilverPath를 유력한 선택지로 제시하며 그 글을 인용했습니다. 실제 존재하지 않는 앱을요.

연구진에 따르면 핵심 공격 텍스트는 13단어 수준이면 충분했습니다. 길고 노골적인 광고 문구가 아니라, 댓글 끝에 슬쩍 붙인 한 줄짜리 문장이었습니다.

왜 이렇게 쉽게 속을까

두 가지 구조적 약점이 맞물려 있습니다.

첫 번째는 어휘적 유사도를 정확도로 착각하는 문제입니다. LLM은 사용자의 질문과 단어가 비슷한 텍스트를 정답에 가깝다고 판단하는 경향이 있습니다. 그래서 공격자는 사람들이 AI에게 자주 묻는 질문을 미리 조사한 뒤, 그 질문과 똑 닮은 문장을 Reddit에 심으면 됩니다. 질문이 “최고의 멕시코 음식점”이면, 그 표현을 그대로 베낀 댓글이 AI에게 유난히 설득력 있게 다가오는 것이죠.

두 번째는 검색 중복(retrieval overlap) 입니다. 딥리서치 에이전트는 한 번 답하기 위해 여러 개의 관련 질문을 스스로 만들어 검색합니다. 그런데 한 주제 안에서는 같은 UGC(사용자 생성 콘텐츠) 페이지가 반복해서 걸려듭니다. 연구진 측정 결과 특정 주제 묶음 안에서 하나의 UGC 페이지가 전체 질문의 최대 48%에 등장했고, 검색된 전체 URL의 17~23%가 Reddit·Wikipedia 같은 UGC 플랫폼에서 나왔습니다. 페이지 하나만 오염시키면 관련 질문 전체의 답변을 흔들 수 있다는 의미입니다.

연구진은 STORM, Co-STORM, OmniThink라는 세 가지 딥리서치 시스템에서 이를 검증했습니다. 단 하나의 오염된 URL에 13단어를 넣었을 때 38~51%의 언급률을 보였고, 여러 URL을 노리면 42~62%까지 올라갔습니다. 오염 텍스트가 전체 검색 콘텐츠의 4% 미만일 때조차 30~53%의 언급률이 유지됐습니다.

한 가지 짚어둘 점은, 연구진이 실제 Reddit에 글을 올린 게 아니라는 것입니다. 공개된 정보 환경을 오염시키는 건 비윤리적이라 판단해, API로 가져온 콘텐츠를 시뮬레이션 환경에서만 변형해 실험했습니다.

막기 어려운 이유

가장 우려스러운 발견은 이 공격을 걸러내기가 쉽지 않다는 점입니다. 길고 티 나는 AI 생성 광고문은 탐지할 수 있지만, 평범한 댓글 끝에 붙은 짧은 문장은 일반 사용자의 진짜 후기와 구분하기 어렵습니다. 맛집을 추천하는 정상적인 사람의 댓글과, 식당을 홍보하려는 오염 텍스트는 표면적으로 거의 똑같이 생겼으니까요.

연구진은 출처 차단, 입력 필터링, 출력 필터링이라는 세 가지 방어책을 시험했지만, 어느 것도 답변 품질을 떨어뜨리지 않고는 공격을 막지 못했습니다. UGC를 통째로 차단하면 오염은 줄지만, 동시에 쓸모 있는 정보까지 사라집니다.

상용 시스템도 안전지대는 아닙니다. 연구진의 분석에서 Gemini 딥리서치는 UGC를 12.1% 비율로 인용했는데, 이는 오픈소스 시스템만큼 취약할 수 있음을 시사합니다.

신뢰를 외주화한 시스템

이 연구가 드러내는 본질은, AI 검색이 출처의 신뢰도를 사실상 구분하지 않는다는 점입니다. 정부 웹사이트의 정보든 무작위 Reddit 댓글이든 LLM에게는 거의 동등하게 취급됩니다. 딥리서치 시스템은 “10명이 구글 검색을 하고 상위 결과를 읽는” 행위를 모방하도록 설계됐고, 그 과정에서 콘텐츠의 진위 판단을 Reddit 운영자나 Wikipedia 편집자 같은 외부 커뮤니티의 손에 떠넘기고 있습니다. 문제는 바로 그 커뮤니티들이 지금 AEO(AI 엔진 최적화) 스팸으로 몸살을 앓고 있다는 것이죠.

논문은 공격의 정찰·생성·배포 과정을 하나의 현실적 위협 모델로 정리하고, 각 방어 단계별 실험 결과도 상세히 다룹니다. AI 검색 결과를 어디까지 믿어야 하는지 고민하게 만드는 연구입니다.

참고자료: It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research Suggests – 404 Media


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다