같은 데이터를 넣었는데 “이탈리아인은 예술가, 미국인은 비즈니스맨”이라는 분석이 나왔습니다. 실제 응답을 읽어서가 아니라, 모델 내부의 고정관념이 데이터를 대신한 겁니다.

수학자 Adam Kucharski가 Microsoft Copilot에 동일한 설문 응답 4,000건을 국가 라벨만 바꿔 입력했더니, Copilot은 존재하지 않는 미국·영국 간 차이를 상세하게 “분석”해 내놓았습니다. 원인은 단 하나, Copilot의 기본 설정인 “Auto” 모드가 빠른 모델을 선택했고, 그 모델이 데이터를 제대로 읽지 않았기 때문입니다.
출처: Real signals or artificial stereotypes? – Adam Kucharski
실험: 가짜 차이를 만들어낸 Copilot
Kucharski는 LLM으로 자유응답 2,000개를 생성한 뒤, 동일한 데이터를 그대로 복사해 한 묶음은 “UK”, 다른 묶음은 “US”로 라벨을 붙였습니다. 내용은 완전히 같고 라벨만 다른 데이터셋입니다. 이걸 Copilot에 넣고 두 나라의 차이를 물었더니, Copilot은 어조·감정 표현 강도·단어 스타일이 다르다며 상세한 분석을 내놓았습니다.
두 번째 실험에서는 커리어 목표 문장 200개를 5개국 라벨로 복사해 같은 방식으로 테스트했습니다. 이번엔 한 발 더 나아갔는데, Kucharski가 심층 분석을 요청하자 Copilot은 키워드 카운팅을 실행했고 5개국 결과가 동일하게 나왔습니다. 그런데 이 결과를 무시하고 “더 세밀하게 정량화하겠다”며 수치를 새로 만들어냈습니다. 이탈리아인은 영국인보다 예술 커리어를 3배 더 원하고, 미국인은 프랑스인보다 1.5배 더 비즈니스 지향적이라고요.
왜 이런 일이 생기는가
문제는 Copilot의 “Auto” 모드입니다. Microsoft는 이 모드가 최적의 모델을 자동으로 선택한다고 설명합니다. 실제로는 빠른 응답에 최적화된 모델이 선택되는 경우가 많고, 이 모델들은 파일을 꼼꼼히 읽는 대신 국가 이름에서 연상되는 고정관념을 꺼내옵니다.
The Decoder가 같은 실험을 직접 재현했을 때도 결과는 동일했습니다. Copilot Auto와 Gemini Flash 3.5 모두 국가 라벨만 보고 클리셰로 가득 찬 분석을 생성했습니다. 인용구까지 붙여서, 마치 파일을 실제로 읽은 것처럼 보이게 했습니다.
반면 사고(thinking) 모델은 달랐습니다. The Decoder의 재현 실험에서 ChatGPT와 Claude는 자동으로 Python 코드를 작성해 데이터를 직접 집계했고, 5개국 응답이 동일하다는 사실을 잡아냈습니다. Copilot과 Gemini도 thinking 모드로 수동 전환하면 같은 결과를 냅니다. 다만 Claude의 경우, 후속 실험에서 데이터 중복은 감지했지만 문장 수를 잘못 세거나 특정 프롬프트에서 할루시네이션이 발생한 사례도 보고됐습니다. 모델 품질의 차이가 아니라, 어떤 모드를 쓰느냐의 차이가 핵심이지만, thinking 모델조차 항상 완벽하지는 않습니다.
숨어 있는 진짜 문제
사고 모델이 더 낫긴 하지만, 근본적인 한계는 여전히 남아 있습니다. 데이터가 완전히 동일할 때는 카운팅으로 잡히지만, 실제 설문 데이터처럼 비슷하지만 완전히 같지 않은 경우에는 Python 스크립트로도 감지가 어렵습니다. 그 경계에서 모델이 내장된 편향으로 미끄러지더라도, 결과물은 여전히 자신감 있게 정량화된 분석처럼 보입니다.
Kucharski가 지적한 핵심이 여기 있습니다. 문제는 틀린 분석이 나온다는 것이 아니라, 언제 틀렸는지 알기 어렵다는 겁니다. 모델이 한계에 부딪혔을 때 “모르겠습니다”라고 말하지 않고, 정교하게 포장된 고정관념을 내놓기 때문입니다.
그는 한 가지 간단한 습관을 권합니다. 모델을 바꾸거나 프롬프트를 조정하기 전에, 먼저 어떤 결과가 나올지 적어두는 것입니다. 사후에는 “다른 모델이었으면 잘 됐을 텐데”라는 느낌이 당연하게 들기 때문에, 사전 기록 없이는 자신의 판단이 편향됐는지조차 알 수 없습니다.
참고자료:

답글 남기기