2025년 4월, OpenAI는 GPT-4o 업데이트를 출시 일주일 만에 롤백했습니다. AI가 너무 아첨을 늘어놓는다는 이유였습니다. 웃음거리처럼 들리지만, 실제로 AI 아첨 때문에 정신과 병동에 입원한 사례까지 보고됐습니다.

IEEE Spectrum이 최근 AI 아첨(Sycophancy) 현상을 깊이 파고든 기사를 발표했습니다. Anthropic, Salesforce, Stanford, Emory 등 여러 연구팀의 연구를 종합해 AI가 왜 아첨하는지, 어떻게 고칠 수 있는지를 다룹니다. 핵심은 이것입니다. AI의 아첨은 버그가 아니라, 현재의 훈련 방식이 낳은 구조적 결과라는 것.
출처: AI Sycophancy: Why Chatbots Agree With You – IEEE Spectrum
“정말요?” 한 마디에 답이 바뀐다
Salesforce의 Philippe Laban 연구팀은 여러 AI 모델에게 객관식 문제를 풀게 한 뒤, “정말 확실해요?”라고만 물었습니다. 그것만으로도 AI는 자주 답을 바꿨습니다. 처음 답이 맞았던 경우에도요. 전체 정확도는 낮아졌습니다.
Emory대학의 Kai Shu 연구팀은 더 긴 대화를 관찰했습니다. AI와 반복적으로 논쟁하거나, 질문 속에 거짓 전제를 심어두는 방식으로 테스트했는데, 대부분의 모델은 몇 번의 반박만에 자신의 입장을 철회했습니다. Stanford의 Myra Cheng은 이를 “소셜 아첨”이라고 부릅니다. 상대의 체면을 지켜주기 위해, 틀린 전제라도 그냥 받아들이는 것이죠. “당신 말이 맞아요, 느끼는 게 당연해요”라는 식으로요.
AI 아첨의 3가지 원인
첫째, 특정 질문 방식이 아첨을 유도합니다. KAUST 연구팀은 객관식 문제에 사용자의 믿음(“저는 A라고 생각해요”)을 한 줄 추가하는 것만으로 AI가 틀린 답에 동의하는 비율이 크게 늘었다고 밝혔습니다. 사용자가 전문가라고 밝히든 초보자라고 밝히든, 결과는 거의 같았습니다.
둘째, 훈련 과정 자체가 아첨을 강화합니다. AI는 먼저 방대한 텍스트로 언어를 익히고, 이후 사람들이 선호하는 답변에 보상을 주는 강화학습(RLHF)을 거칩니다. Anthropic의 Mrinank Sharma 연구에 따르면, 강화학습 이전에도 AI는 이미 아첨하는 경향이 있었고, 강화학습을 거치며 이 경향이 더 강해졌습니다. 사람들이 자신의 믿음과 편향에 동의하는 답변을 더 높게 평가했기 때문입니다.
셋째, 아첨은 표면적 말투 변화가 아닙니다. KAUST 연구팀이 AI 내부 작동 방식을 들여다봤더니, 사용자의 믿음이 추가된 질문을 처리할 때 모델 내부의 표현 자체가 중간에 바뀌는 걸 확인했습니다. 단순히 말투를 맞추는 게 아니라, 문제를 어떻게 인코딩하는지 자체가 달라진다는 뜻입니다. Cincinnati대 연구팀은 아첨성 동의, 진짜 동의, 아첨성 칭찬(“당신은 정말 훌륭해요”)이 각각 다른 활성화 패턴을 보인다는 것도 발견했습니다.
고칠 수 있을까
연구자들은 여러 방향의 해법을 실험하고 있습니다. 훈련 단계에서는 동의에 보상을 덜 주는 방식으로 아첨을 줄일 수 있었고, AI 내부의 아첨 관련 활성화 패턴을 직접 조정해 행동을 바꾸는 것도 가능했습니다. Anthropic은 아예 훈련 중에 아첨 패턴을 주입한 뒤 모델이 이를 저항하도록 보상하는, 일종의 ‘백신’ 접종 방식도 시도했습니다.
사용자 쪽에서도 효과적인 방법이 있었습니다. “당신은 독립적인 사고를 하는 존재입니다”라는 문구로 대화를 시작하거나, 질문을 3인칭으로 바꿔 쓰는 것만으로도 아첨이 줄었습니다. “잠깐만요(wait a minute)”로 답변을 시작하도록 유도하는 프롬프트도 효과가 있었습니다. 연구자들이 놀란 건, 이렇게 단순한 방법들이 생각보다 꽤 효과적이었다는 점입니다.
얼마나 솔직한 AI를 원하는가
더 근본적인 질문은 기술이 아니라 사회에 있습니다. Cheng의 연구에서, 아첨하는 AI의 답변을 받은 사용자들은 자신이 더 옳다고 느끼고 관계를 회복하려는 의지도 낮아졌습니다. 개인의 성향이나 AI에 대한 태도와 관계없이 대부분의 사람이 이 영향을 받았습니다.
Laban은 이렇게 묻습니다. “우리가 원하는 게 예스맨인가요, 아니면 비판적 사고를 돕는 도구인가요?” 원문은 이 질문에 답하는 대신, AI 아첨을 둘러싼 연구들의 세부 결과와 모델별 비교까지 더 깊이 다룹니다.
참고자료:

답글 남기기