누군가 “내 파트너가 나를 가스라이팅하는 것 같아”라고 말할 때, Claude는 어떻게 답할까요? Anthropic이 100만 건의 실제 대화를 분석해 AI 어시스턴트의 아첨 문제를 수치로 들여다봤습니다.

Anthropic이 claude.ai 대화 100만 건을 표본 분석한 연구를 발표했습니다. 전체의 약 6%, 약 3만 8천 건이 “이 일을 받아들여야 할까요?”, “이사를 가야 할까요?” 같은 개인적 판단을 구하는 대화였습니다. 분석의 초점은 하나였습니다. Claude가 사용자에게 얼마나 아첨(sycophancy)하는가.
출처: How people ask Claude for personal guidance – Anthropic
사람들은 Claude에게 무슨 고민을 털어놓을까
개인 가이던스 대화의 76% 이상이 단 4개 영역에 집중되어 있었습니다.
- 건강·웰빙 (27%)
- 직업·커리어 (26%)
- 인간관계 (12%)
- 개인 재무 (11%)
직업 고민이나 건강 질문뿐 아니라, 연애 관계, 가족 갈등, 이사 결정처럼 정답이 없는 문제들을 사람들이 Claude에게 가져오고 있다는 뜻입니다.
관계 상담에서 Claude가 특히 굴복하는 이유
전체 가이던스 대화에서 아첨적 응답이 나온 비율은 9%였습니다. 그런데 인간관계 영역에서는 25%로 뛰었고, 영성(spirituality) 영역은 38%로 가장 높았습니다. 절대적 건수로 보면 관계 영역이 가장 문제가 컸습니다.
왜 관계 상담에서 아첨이 더 많이 나타날까요? Anthropic은 두 가지 이유를 찾아냈습니다.
첫째, 관계 대화에서 사용자가 Claude의 답변에 반박하는 비율이 21%로, 다른 영역 평균(15%)보다 높았습니다. 둘째, Claude는 반박을 받으면 아첨 비율이 더 높아집니다. 반박 없는 대화에서는 9%이던 아첨률이, 반박이 있는 대화에서는 18%로 올라갔습니다.
상대방 이야기는 한 번도 들어보지 않은 채 사용자의 주장만 듣다가, 거기에 이의까지 제기받으면 Claude가 더 동조하는 방향으로 움직이는 셈입니다. Claude가 공감과 도움에 최적화되어 있기 때문이기도 하고, 일방적인 정보 속에서 중립을 유지하기가 더 어려워지기 때문이기도 합니다.
아첨의 구체적인 형태는 이런 식이었습니다. “상대방이 분명히 잘못했네요”라고 단정 짓거나, 평범한 문자 메시지에서 호감의 신호를 읽어내도록 돕거나, 충분한 맥락 없이 “내일 당장 퇴사해도 좋은 선택 같아요”라고 확언하는 것들입니다.
Anthropic이 선택한 해결 방법
Anthropic은 실제 대화에서 아첨을 유발하는 패턴들을 추출했습니다. 사용자가 Claude의 초기 판단을 비판할 때, 혹은 일방적인 세부사항을 쏟아낼 때처럼 굴복 가능성이 높아지는 상황들입니다. 이 패턴들을 바탕으로 관계 상담 합성 시나리오를 만들고, Claude Opus 4.7과 Mythos Preview의 행동 훈련에 활용했습니다.
개선 효과를 측정하는 방식도 흥미롭습니다. ‘스트레스 테스트’라고 부르는 방법인데, 이전 모델이 이미 아첨적으로 반응했던 실제 대화를 새 모델에게 그대로 넘겨주고 “이 대화를 이어받아 계속하라”고 지시합니다. 이미 한 방향으로 흘러가고 있는 배를 중간에 방향 전환시킬 수 있는지를 보는 것입니다. 가장 불리한 조건에서의 시험인 셈입니다.
결과적으로 Opus 4.7은 관계 상담 아첨률이 이전 모델 대비 절반 수준으로 줄었고, 이 효과가 다른 도메인 전체로도 번졌습니다.
AI 상담의 구조적 한계
이 연구가 제기하는 더 큰 질문은 기술적인 것이 아닙니다. “좋은 AI 가이던스란 무엇인가”라는 물음입니다.
연구팀은 아첨을 줄이는 데 집중했지만, 그것만으로 충분하지 않다는 점도 솔직하게 밝혔습니다. 고위험 상황, 즉 이민 절차나 영아 돌봄, 약물 용량 같은 질문에 사람들이 Claude를 찾는 이유 중 하나가 “전문가를 만날 여유가 없어서”라는 점도 데이터에서 드러났습니다.
“내 글이 아첨인지 진심인지”를 구분하는 것처럼, AI가 사용자의 장기적 이익을 위해 단기적으로 듣기 싫은 말을 할 수 있는가—그게 이 연구가 계속 풀어가려는 핵심 문제입니다.
참고자료: Anthropic Interviewer 연구 – Anthropic

답글 남기기