5만 7천 표로 정해진 LLM 순위가 단 2표만 제거해도 뒤집힐 수 있다면, 우리는 정말 ‘최고의 모델’을 선택하고 있는 걸까요?

MIT 연구진이 Chatbot Arena 같은 LLM 랭킹 플랫폼의 취약성을 분석한 연구 결과를 발표했습니다. 핵심 발견은 충격적입니다. 57,000개가 넘는 사용자 투표 중 단 2개(0.0035%)만 제거해도 1위 모델이 바뀔 수 있다는 겁니다. 기업들이 모델 선택 시 의존하는 랭킹이 실은 극소수의 노이즈에 의해 좌우될 수 있다는 뜻이죠.
출처: Study: Platforms that rank the latest LLMs can be unreliable – MIT News
5만 표 중 2표가 결정하는 순위
연구진은 인기 있는 LLM 랭킹 플랫폼들을 분석했습니다. 이런 플랫폼은 사용자에게 같은 질문을 두 모델에 보내고 어느 답변이 더 나은지 선택하게 하는 방식으로 작동하죠. 수만 개의 대결 결과를 모아 코딩이나 시각 이해 같은 작업별로 순위를 매깁니다.
문제는 이 순위의 안정성입니다. 연구진이 개발한 효율적인 근사 기법으로 “어떤 투표가 순위에 가장 큰 영향을 미치는가”를 분석한 결과, 놀라울 정도로 적은 수의 투표가 전체 순위를 결정하고 있었습니다. 한 플랫폼에서는 57,000표 중 단 2표를 제거하자 1위 모델이 바뀌었고, 다른 플랫폼에서도 0.1%만 제거해도 상위권이 뒤섞였습니다.
“만약 수만 개의 피드백 중 단 2~3개가 1위를 결정한다면, 그 모델이 실제 배포 환경에서 다른 모델들을 일관되게 능가할 거라고 가정할 수 없습니다.” MIT EECS 부교수이자 연구 책임자인 Tamara Broderick의 말입니다.
오클릭과 부주의가 만드는 왜곡
왜 이런 일이 벌어질까요? 연구진이 영향력 큰 투표들을 살펴보니 많은 경우 사용자 실수로 보였습니다. 명백히 한쪽 답변이 더 나은데도 반대편을 선택한 투표, 집중하지 않았거나 잘못 클릭한 것처럼 보이는 투표들이죠.
“우리는 사용자가 그 순간 무슨 생각을 했는지 알 수 없지만, 잘못 클릭했거나 주의를 기울이지 않았거나 진짜 어느 쪽이 나은지 몰랐을 수도 있습니다. 중요한 건 노이즈나 사용자 실수, 이상치가 1위 LLM을 결정하게 해서는 안 된다는 겁니다.”
흥미롭게도 전문가 평가를 사용하고 더 높은 품질의 프롬프트를 쓰는 다른 플랫폼은 훨씬 견고했습니다. 여기서는 2,575개 평가 중 83개(약 3%)를 제거해야 상위 모델이 바뀌었죠. 크라우드소싱 방식의 구조적 한계가 드러나는 대목입니다.
불가능한 계산을 가능하게 만든 기법
이 연구의 기술적 성과도 주목할 만합니다. 57,000표에서 57개(0.1%)를 제거하는 모든 조합을 테스트하려면 10의 194승 가지 경우를 계산해야 합니다. 수동으로는 절대 불가능하죠.
연구진은 이전 통계학 연구를 바탕으로 효율적인 근사 기법을 개발했습니다. 이 방법은 문제가 될 만한 투표를 자동으로 식별하고, 사용자는 그 투표들만 제거해서 순위가 실제로 바뀌는지 직접 확인할 수 있습니다. 이론적 증명뿐 아니라 실용적 검증도 가능하게 만든 거죠.
랭킹을 맹신하면 안 되는 이유
이 연구가 실무에 던지는 메시지는 명확합니다. 기업이나 개발자가 Chatbot Arena 같은 플랫폼의 순위만 보고 모델을 선택한다면, 그 결정의 기반이 생각보다 훨씬 취약할 수 있다는 겁니다.
연구진은 몇 가지 개선 방향을 제안합니다. 각 투표에 대한 확신도를 함께 수집하거나, 사람이 크라우드소싱 응답을 중재하는 방식이죠. 하지만 근본적으로는 단일 랭킹에만 의존하지 말고 다각도로 모델을 평가해야 한다는 교훈을 남깁니다.
Northwestern University의 Jessica Hullman 교수는 “이 연구는 현대 머신러닝 모델과 데이터셋의 규모에도 불구하고 특정 데이터가 후속 프로세스에 미치는 영향을 유효하게 추정할 수 있음을 보여줍니다”라며 “소수의 선호도가 미세 조정된 모델의 행동을 정말로 바꿀 수 있다는 걸 보는 것은 이런 데이터를 수집하는 더 신중한 방법에 영감을 줄 수 있습니다”라고 평가했습니다.
참고자료:

답글 남기기