GPT-4.5는 완벽한 문장, 정확한 문법, 빠른 답변으로 오히려 사람이 아니라는 게 들켰습니다. 정작 사람처럼 보이기 위해 필요했던 건 오타, 소문자, 틀린 계산이었습니다.

UC 샌디에이고 연구팀(Jones & Bergen)이 GPT-4.5, LLaMA-3.1-405B, GPT-4o, ELIZA를 대상으로 무작위 대조 튜링 테스트를 진행한 결과를 발표했습니다. 참가자들이 5분간 동시에 사람과 AI 중 하나와 대화한 뒤 어느 쪽이 인간인지 판단하는 방식이었고, ‘인간 페르소나’ 프롬프트를 적용한 GPT-4.5가 73%의 확률로 사람으로 오인됐습니다. 표준 3자 형식의 튜링 테스트에서 AI가 통과한 건 이번이 처음입니다.
출처: Large Language Models Pass the Turing Test – Jones & Bergen, UC San Diego (2025)
“멍청한 척” 프롬프트가 핵심이었다
연구팀이 GPT-4.5에게 준 지시는 이런 내용이었습니다. 타이핑이 빠르다 보니 오타가 잦고, 소문자를 주로 쓰며, 말은 짧고 직설적으로, 수학은 잘 못하고, 굳이 인간임을 증명하려 들지 않는 사람. 이 페르소나를 적용하자 73%의 참가자가 GPT-4.5를 사람으로 판단했습니다. 실제 인간 참가자가 사람으로 선택된 비율보다도 높은 수치였습니다.
반면 페르소나 없이 단순히 “인간임을 설득하라”는 지시만 준 경우에는 통과율이 36%로 뚝 떨어졌습니다. AI가 자연스럽게 내놓는 깔끔한 문장과 정확한 응답이 오히려 정체를 드러낸 셈이었습니다.
모델마다 결과가 크게 달랐다
같은 인간 페르소나 프롬프트를 적용했을 때 LLaMA-3.1-405B는 56%로 사람과 구별하기 어려운 수준이었고, 페르소나 없는 GPT-4o와 ELIZA는 각각 21%, 23%에 불과했습니다. AI를 사람으로 오인하기 위해서는 모델의 기본 성능도 중요하지만, 어떻게 행동하도록 유도하느냐가 결정적이라는 점이 드러납니다.
튜링 테스트가 측정하는 건 지능이 아니다
EU AI 오피스에서 AI 조작 위험을 평가하는 Charbel-Raphael Segerie는 이 결과를 두고 “다소 아이러니하다”고 표현했습니다. AI는 수초 안에 완성도 높은 글을 써낼 수 있는데, 인간처럼 보이기 위해 그 능력을 정확히 숨겨야 한다는 것입니다.
이 실험은 튜링 테스트가 지능을 측정하는 게 아니라 인간 행동 — 실수와 불완전함까지 포함한 — 을 얼마나 잘 흉내 내는지를 측정한다는 사실을 다시 한번 드러냅니다. 연구팀은 이 결과가 AI의 사회적·경제적 대체 가능성, 그리고 사람을 속이는 AI의 잠재적 위험성과 맞닿아 있다고 봤습니다. 논문에는 두 개의 독립 집단(대학생, 온라인 패널)을 대상으로 한 상세 실험 설계와 통계 분석도 포함되어 있습니다.
참고자료: GPT-4.5 fooled 73 percent of people into thinking it was human by pretending to be dumber – The Decoder

답글 남기기