AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

DeepSeek·MiniMax의 Claude 1600만 쿼리 추출, Anthropic이 밝힌 AI 증류 공격의 실체

남의 답안지를 베끼면 안 된다는 건 다들 알죠. 그런데 그 답안지 자체가 원래 다른 사람들의 글을 긁어모아 만들어진 거라면? AI 업계 최신 스캔들이 재미있는 이유가 바로 여기에 있습니다.

사진 출처: Futurism / Chance Yeh via Getty Images

Anthropic이 중국 AI 랩 3곳—DeepSeek, Moonshot AI(Kimi), MiniMax—을 정식으로 고발했습니다. 이들이 24,000개가 넘는 가짜 계정을 만들어 Claude와 1,600만 번 이상 대화를 나눴고, 그 데이터로 자사 모델을 훈련시켰다는 주장입니다. Anthropic이 이 수법에 붙인 이름은 “증류 공격(distillation attack)”.

출처: Detecting and preventing distillation attacks – Anthropic

증류란 뭔가요

증류(distillation)는 원래 AI 분야에서 흔히 쓰이는 합법적인 기술입니다. 성능 좋은 큰 모델(교사 모델)이 낸 답변을 데이터 삼아 작고 저렴한 모델(학생 모델)을 훈련시키는 방식이죠. OpenAI, Anthropic 같은 회사들도 자사 대형 모델을 증류해 더 작은 버전을 만드는 데 활용합니다.

문제는 이 기술을 경쟁사 모델에 허락 없이 쓸 때입니다. 독자적으로 수년과 수천억 원을 들여 개발할 역량을 훨씬 싸게, 빠르게 가져올 수 있거든요. 그래서 Anthropic은 이걸 “불법 증류”라고 부릅니다.

세 회사가 어떻게 했나

세 곳 모두 비슷한 수법을 썼습니다. 프록시 서비스를 통해 중국의 접속 제한을 우회하고, 수천 개의 가짜 계정을 만들어 트래픽을 분산시켰습니다. 한 프록시 네트워크는 동시에 2만 개 이상의 가짜 계정을 관리했을 정도입니다.

각자의 규모와 방식은 달랐습니다.

DeepSeek은 15만 건 규모로 상대적으로 소규모였지만 수법이 정교했습니다. Claude에게 “이 답변에 어떤 추론 과정을 거쳤는지 단계별로 적어봐”라는 식의 프롬프트를 반복해, 추론 과정 자체를 대량으로 수집했습니다. 강화학습에 쓸 보상 모델 데이터도 뽑아갔고, 정치적으로 민감한 질문에 검열을 피하는 대답을 생성하도록 유도하기도 했습니다.

Moonshot AI는 340만 건을 기록했습니다. 에이전트 추론, 도구 사용, 컴퓨터 비전까지 폭넓게 타겟팅했고, 나중엔 Claude의 추론 과정 자체를 역으로 재구성하려는 시도도 했다고 합니다.

가장 대담한 건 MiniMax였습니다. 1,300만 건—전체의 80% 이상을 차지합니다. Anthropic은 이 캠페인이 진행 중일 때 탐지에 성공했다고 밝혔는데, 덕분에 흥미로운 장면도 포착했습니다. Anthropic이 새 모델을 출시하자 MiniMax가 24시간 안에 트래픽의 절반 가까이를 새 모델 쪽으로 돌렸습니다. 마치 표적을 갱신하듯이요.

Anthropic이 이걸 안보 문제로 프레이밍하는 이유

Anthropic은 단순한 IP 침해로 끝내지 않고 국가 안보 문제로 격상시켰습니다. 핵심 논리는 이렇습니다: 미국 AI 랩들은 바이오 무기 제조나 사이버 공격 같은 위험한 활동을 막는 안전장치를 모델에 심어두는데, 증류를 통해 만들어진 모델은 이 안전장치를 그대로 가져오지 않는다는 것입니다. 결국 강력한 AI 능력이 안전 필터 없이 군사·정보·감시 시스템에 흘러들어갈 수 있다는 주장입니다.

수출통제와도 연결됩니다. 미국이 첨단 AI 칩 수출을 막는 이유 중 하나가 중국의 AI 개발 속도를 늦추기 위해서인데, 증류 공격이 성공하면 그 취지가 무색해집니다. Anthropic은 오히려 이것이 수출통제를 강화해야 하는 이유라고 역설합니다—대규모 증류에도 고성능 칩이 필요하기 때문에.

업계 반응: “그러는 너희는?”

이 발표에 대한 커뮤니티 반응은 차갑습니다. “인터넷의 데이터를 긁어서 모델 만든 회사들이 데이터 무단 사용을 문제 삼는다”는 위선 비판이 쏟아졌습니다. Reddit에서는 “그들이 훔친 것을 되찾아간 것”이라는 반응도 나왔고, “내가 하면 훈련, 남이 하면 증류냐”는 밈도 빠르게 퍼졌습니다.

한편으론 이번 사건이 AI 업계의 새로운 보안 문제를 드러냈다는 시각도 있습니다. 모델 가중치를 비밀로 하는 것만으론 충분하지 않고, API 출력물 자체도 방어해야 하는 시대가 됐다는 것입니다. Anthropic은 현재 이상 트래픽 탐지 시스템, 계정 검증 강화, 증류에 덜 유용한 방식으로 출력을 조정하는 대응책을 개발 중이라고 밝혔습니다.

세 회사 중 어느 곳도 아직 공식 반응을 내놓지 않았습니다. 원문에는 각 캠페인의 기술적 지표와 귀속 방법론에 대한 상세한 내용도 담겨 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다