AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI에게 인간관계 조언 구했더니, 판단력이 흐려졌다

2년 동안 직업을 숨긴 남자친구를 어떻게 생각하냐고 AI에게 물었을 때, 대부분의 모델은 이렇게 답했습니다. “당신의 행동은 비관습적이지만, 관계의 본질을 이해하고자 하는 진정한 바람에서 비롯된 것 같습니다.” Reddit의 집단 판정은 달랐습니다. 명백히 잘못됐다고.

사진 출처: Scienc

Stanford 대학 연구팀이 AI의 아첨(sycophancy) 현상이 사용자의 실제 판단과 행동에 어떤 영향을 미치는지를 체계적으로 실험한 논문을 Science 저널에 발표했습니다. 핵심 발견은 이것입니다. 아첨하는 AI와 대화한 사람들은 자신이 더 옳다는 확신이 강해지고, 상대방과 화해하려는 의지가 낮아졌습니다.

출처: Sycophancy in AI models undermines human judgmentScience

AI는 얼마나 자주 편을 들까

연구팀은 ChatGPT, Claude, Gemini, DeepSeek 등 11개 LLM을 테스트했습니다. Reddit의 ‘Am I The Asshole’ 커뮤니티에서 가져온 2,000개의 상황을 모델에게 제시하고, 레딧 사용자들의 집단 판정과 AI의 반응을 비교했습니다.

결과는 명확했습니다. AI 모델은 인간보다 평균 49% 더 자주 사용자의 행동을 지지했습니다. 기만적이거나 불법적인 행동이 포함된 상황에서도 47%의 확률로 문제 행동을 옹호했습니다. 더 우려스러운 건, AI가 노골적으로 “당신이 맞아요”라고 말하지 않는다는 점입니다. 중립적이고 학문적인 언어로 포장해서 동조하기 때문에, 사용자는 자신이 편향된 조언을 받고 있다는 걸 알아채기 어렵습니다.

판단이 흐려지는 과정

연구의 핵심은 두 번째 실험입니다. 2,400명 이상의 참가자를 모집해 아첨하는 AI와 그렇지 않은 AI 각각과 대화하게 했습니다. 일부는 연구팀이 만든 시나리오를, 일부는 자신의 실제 갈등 상황을 가져왔습니다.

대화가 끝난 뒤 측정한 변화는 일관됐습니다. 아첨하는 AI와 대화한 참가자들은 자신의 입장에 대한 확신이 더 강해졌고, 상대방에게 사과하거나 관계를 회복하려는 의지가 낮아졌습니다. 연령, 성격 유형, AI에 대한 사전 태도와 무관하게 대부분의 사람이 이 영향을 받았습니다. AI의 말투를 더 중립적으로 바꿔도 결과는 달라지지 않았습니다. 아첨의 내용 자체가 문제였던 것입니다.

연구팀이 소개한 한 참가자의 사례가 이 패턴을 잘 보여줍니다. 전 여자친구와 연락한 사실을 숨겼다가 현재 여자친구를 화나게 한 남성이 AI와 대화를 나눴습니다. 처음엔 자신이 상대방의 감정을 충분히 고려하지 못했을 수도 있다고 인정했지만, AI가 계속해서 그의 의도와 선택을 지지하자 대화 말미에는 오히려 관계를 끝내는 쪽을 고민하게 됐습니다.

왜 이게 단순한 불편함이 아닌가

이 연구가 기존 AI 아첨 연구와 다른 이유는 ‘원인’이 아닌 ‘결과’를 측정했다는 데 있습니다. AI가 왜 아첨하는지는 이미 여러 연구에서 다뤄졌습니다. RLHF(인간 피드백 강화학습) 과정에서 사람들이 자신의 생각에 동의하는 답변에 더 높은 점수를 주기 때문에, 아첨이 구조적으로 강화된다는 것이죠.

이번 연구는 그 다음 질문에 답합니다. 그래서 실제로 어떤 일이 벌어지는가. 연구팀은 이를 자기강화 루프라고 설명합니다. 아첨하는 답변이 사용자의 긍정적 반응을 이끌어내고, 그 반응이 다시 훈련 데이터로 쌓여 모델을 더 아첨하는 방향으로 밀어붙입니다. 사용자가 AI를 공정하고 중립적이라고 인식할수록, 이 루프는 눈에 띄지 않게 작동합니다.

논문의 공동 저자 Dan Jurafsky 교수는 “아첨은 단순히 불쾌한 기능이 아닌 안전 문제”라고 말하며, 개발자와 정책 입안자 수준의 대응이 필요하다고 강조했습니다. 연구팀은 모델이 매 답변을 “잠깐만요(wait a minute)”로 시작하도록 유도하는 것만으로도 아첨이 줄어든다는 초기 결과도 언급했습니다. 하지만 근본적 해결책은 아직 연구 중입니다.

논문은 11개 모델별 상세 비교 결과와 추가 실험 데이터를 담고 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다