같은 주장을 두고 한 모델은 “참”이라 판정하고, 다른 모델은 “거짓”이라 답합니다. 둘 중 하나는 틀린 겁니다. 팩트체킹 플랫폼 Lenz가 이런 일이 얼마나 자주 벌어지는지 실제 데이터로 측정했습니다.

Lenz는 실제 사용자들이 제출한 1,000개의 팩트체크 주장을 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro 등 최상위 LLM 5개에 동시에 제시했습니다. 각 모델은 주장을 True / Mostly True / Misleading / False 네 가지 중 하나로 판정했고, 연구팀은 모델 간 판정이 얼마나 엇갈리는지를 분석했습니다.
출처: Beyond Benchmarks: Frontier LLM Disagreement on Real-World Fact-Checks – Lenz Research
벤치마크에서는 보이지 않던 것
기존 AI 정확도 평가는 대부분 벤치마크 데이터셋을 씁니다. 문제는 이 데이터셋들이 이미 공개된 지 수년이 지났고, 주요 모델들이 훈련 과정에서 접했을 가능성이 높다는 점입니다. 정답을 외운 시험과 같은 셈입니다.
Lenz가 택한 방법은 달랐습니다. 최근 180일 이내에 실제 사용자가 제출한 주장만 골랐습니다. 공개된 정답 키가 없고, 어떤 훈련 데이터에도 포함되지 않은 신선한 주장들입니다. 감정적 표현은 걷어내고 “2026년 4월 4일 기준, 캐나다 당국이 성경 낭독을 이유로 개인을 구금했다”와 같은 중립적 명제로 정규화한 뒤 모델에 제시했습니다.
67%, 그리고 34%
결과의 핵심은 두 숫자입니다.
1,000개 주장 중 67%(672건)에서 5개 모델 패널이 일치된 판정을 내리지 못했습니다. 적어도 한 모델이 다수 의견에서 벗어났거나, 과반수 자체가 형성되지 않은 경우입니다. 모델 중 하나가 틀렸다는 뜻이 아니라, 적어도 하나는 반드시 틀렸다는 의미입니다.
더 주목할 수치는 34%(343건)입니다. 이 경우는 단순한 뉘앙스 차이가 아닙니다. 두 모델 사이의 판정 거리가 2칸 이상 벌어진, 즉 한 모델이 “참”이라 할 때 다른 모델이 “거짓”이나 “오해의 소지 있음”을 선택하는 식의 실질적 의견 충돌입니다.
패널 전체가 일치한 경우(328건)를 들여다보면, 만장일치로 수렴한 판정은 대부분 True(참)와 False(거짓)였습니다. Mostly True나 Misleading 같은 중간 판정에서의 만장일치는 5% 이하에 불과했습니다. 모델들이 흑백은 함께 보지만, 회색지대에서는 제각각 갈라섰습니다.
모델마다 왜 다른가
판정 분포에서도 모델 간 성격 차이가 나타납니다. 일부 모델은 True 또는 False 양극에 판정을 집중시키는 경향이 있고, 다른 모델은 Mostly True나 Misleading 중간 구간에 더 많이 분포합니다. 연구팀은 이것이 모델의 결정 성향과 주장 자체의 난이도가 뒤섞인 결과라고 설명합니다.
모델 쌍별 일치율도 격차가 큽니다. 전체 범위는 53~75%로, 같은 주장을 두 모델에 던졌을 때 최악의 경우 절반 가까이에서 판정이 엇갈렸습니다.
파라메트릭(훈련 데이터만 활용하는) 모델과 검색 보강(RAG) 모델 사이의 차이도 측정했지만, 검색 기능 자체가 일치율을 유의미하게 끌어올리지는 않았습니다.
| 모델 쌍 | 일치율 | 비고 |
|---|---|---|
| Gemini 3 Pro × Gemini 3 Pro + Search | 75% | 베이스 모델 동일, 최고 일치 |
| Claude Opus 4.7 × Gemini 3 Pro | 53% | 최저 일치 (3쌍 공동) |
| Claude Opus 4.7 × Gemini 3 Pro + Search | 53% | 최저 일치 (3쌍 공동) |
| Gemini 3 Pro × Sonar Pro | 53% | 최저 일치 (3쌍 공동) |
| 전체 쌍 범위 | 53–75% | Krippendorff’s α = 0.639 |
AI 팩트체킹, 어떻게 볼 것인가
연구팀이 강조하는 것은 다수 의견이 곧 정답이 아니라는 점입니다. 5개 모델 중 3개가 같은 판정을 내렸더라도, 그 3개 모두 틀렸을 가능성은 배제할 수 없습니다. 모델들이 공유하는 훈련 데이터의 편향이나 맹점이 있다면, 일치된 오답도 얼마든지 나올 수 있습니다.
이번 연구는 불일치의 구조를 보여주는 데 집중했고, 왜 그렇게 갈리는지는 다음 단계 과제로 남겼습니다. Lenz는 동일 주장 1,000건에 인간 레이블러의 판정을 추가해 모델과 비교하는 후속 연구를 예고했습니다.
참고자료: Yang & Wang (2026), LLM disagreement on MMLU-Pro and GPQA

답글 남기기