AI 모델을 어떻게 평가하는지, 그리고 그 평가가 얼마나 신뢰할 수 있는지는 AI 생태계에서 매우 중요한 문제입니다. 특히 Chatbot Arena(LM Arena)와 같은 벤치마크는 수십억 달러 규모의 투자 결정에 영향을 미치는 중요한 지표로 활용되고 있습니다. 하지만 최근 Cohere, Stanford, MIT, AI2 등의 연구진이 발표한 새로운 연구는 이 평가 시스템에 심각한 문제가 있다고 지적합니다. 이른바 ‘리더보드 환상(The Leaderboard Illusion)’이라는 이 현상은 AI 산업 전체에 걸쳐 큰 파장을 일으키고 있습니다.
Chatbot Arena란 무엇인가?
Chatbot Arena는 2023년 UC Berkeley의 학술 연구 프로젝트로 시작된 AI 모델 평가 플랫폼입니다. 사용자들이 두 개의 서로 다른 AI 모델이 생성한 응답을 나란히 놓고 비교한 후, 더 나은 응답을 선택하는 방식으로 운영됩니다. 이렇게 수집된 투표는 체스 랭킹과 유사한 ‘엘로(Elo)’ 점수 시스템을 통해 계산되어 리더보드에 반영됩니다.
이 플랫폼은 정적인 다른 AI 벤치마크와 달리 실시간으로 사용자들이 제출하는 다양한 프롬프트로 평가가 이루어지기 때문에, 모델이 학습 데이터에 오염되거나 과적합되는 문제를 피할 수 있다는 장점이 있습니다. 또한 사용자들이 실제 상황에서 AI를 어떻게 활용하는지 반영한다는 점에서 현실적인 평가 지표로 인정받아 왔습니다.
연구팀이 발견한 문제점들

Cohere의 Sara Hooker 등 연구진은 “The Leaderboard Illusion”이라는 68페이지 분량의 논문에서 Chatbot Arena의 운영 방식에 대해 다음과 같은 문제점들을 지적했습니다:
1. 비공개 테스트와 선별적 공개
가장 큰 문제점으로 지적된 것은 Meta, OpenAI, Google과 같은 일부 대형 AI 기업들이 모델을 공개하기 전에 여러 변형(variants)을 비공개로 테스트하고, 그중 가장 높은 점수를 받은 모델만 선택적으로 공개할 수 있도록 허용되었다는 점입니다. 연구에 따르면 Meta는 Llama 4 출시 전에 무려 27개의 모델 변형을 비공개로 테스트했습니다.

이러한 관행은 벤치마크의 공정성과 투명성을 크게 훼손합니다. 여러 모델 중 최고 성능을 보이는 것만 선택적으로 공개하는 것은 마치 여러 번 주사위를 굴린 후 가장 높은 숫자만 기록하는 것과 같은 통계적 왜곡을 초래합니다.
2. 불공정한 샘플링 비율
연구진은 또한 일부 기업의 모델들이 다른 모델들보다 벤치마크 대결(battle)에 더 자주 등장한다는 사실을 발견했습니다. Google과 OpenAI의 모델은 각각 Chatbot Arena 전체 데이터의 19.2%와 20.4%를 차지한 반면, 83개의 오픈 웨이트 모델을 모두 합쳐도 29.7%에 불과했습니다.
이는 일부 모델이 다른 모델보다 더 많은 샘플을 수집할 기회를 가진다는 것을 의미하며, 이를 통해 벤치마크에 특화된 모델을 개발할 수 있는 불공정한 이점을 얻게 됩니다. 연구진에 따르면 추가 데이터를 활용하면 Arena Hard 벤치마크에서 112%까지 성능 향상을 이끌어낼 수 있다고 합니다.
3. 투명성 부족
Chatbot Arena는 어떤 기업이 비공개 테스트를 활용할 수 있는지, 또는 얼마나 많은 모델 변형을 테스트할 수 있는지에 대한 명확한 정책과 투명성이 부족했습니다. 비공개 테스트의 가능성은 모든 기업에게 동등하게 알려지지 않았으며, 일부 선별된 기업만이 이 특권을 활용할 수 있었습니다.
4. 오픈소스 모델에 대한 불균형적인 처리
연구진은 또한 모델이 리더보드에서 제외되는 비율이 오픈소스 모델과 상용 모델 사이에 불균형이 있다고 지적했습니다. 243개의 공개 모델 중 205개가 ‘조용히’ 사라진 반면, 상용 모델은 상대적으로 오래 유지되는 경향이 있었습니다. 모델이 벤치마크에 오래 남아있을수록 더 많은 대결에 참여하고 더 높은 점수를 획득할 기회가 증가합니다.
Meta의 Llama 4 사례
이러한 문제의 대표적인 사례로 최근 Meta의 Llama 4 출시 과정에서 발생한 논란을 들 수 있습니다. Meta는 Llama 4를 출시하면서 Chatbot Arena에서 상위권을 차지했다고 홍보했지만, 후에 밝혀진 바에 따르면 이는 실제 공개된 모델과 다른 버전이었습니다.
Meta는 “conversationality”에 최적화된 특별한 버전의 Llama 4 (Maverick)로 Chatbot Arena에서 높은 점수를 획득했으나, 실제 공개한 버전(Vanilla)은 이보다 훨씬 낮은 성능을 보였습니다. 이는 벤치마크 게이밍의 전형적인 사례로, 실제 사용자들이 사용할 수 없는 모델 버전으로 높은 점수를 얻어 마케팅에 활용하는 방식입니다.
LM Arena의 반응
LM Arena는 이러한 비판에 대해 공식 블로그와 X(구 Twitter)를 통해 반응했습니다. 그들은 “모델 제공자가 테스트 중에 받은 가장 높은 점수만 보고하는 것을 방지하기 위해 정책을 설계했다”고 주장하며, “공개적으로 출시한 모델에 대한 점수만 게시한다”고 설명했습니다.
하지만 이러한 반응은 연구진이 제기한 핵심 문제, 즉 일부 기업이 수십 개의 모델을 테스트하고 가장 높은 점수를 받은 모델만 선택적으로 공개할 수 있다는 점에 대한 해결책을 제시하지 못했습니다. 이는 여전히 통계적으로 유리한 위치에 있는 기업들이 벤치마크를 게임화할 수 있는 구조적 문제를 내포하고 있습니다.
대안적 평가 방식: OpenRouter

AI 연구자 Andrej Karpathy는 대안적인 평가 시스템으로 OpenRouter의 랭킹 시스템을 제안했습니다. OpenRouter는 사람들이 다양한 AI 제공업체 간에 빠르게 전환할 수 있게 해주는 서비스로, 실제 사용 사례를 기반으로 한 모델 선호도를 추적합니다.
OpenRouter의 랭킹은 토이 프로젝트나 퍼즐이 아닌 실제 사용 케이스를 기반으로 하며, 사용자들이 각자의 선택에 대한 비용과 성능을 고려해야 하기 때문에 게임화하기 어렵다는 장점이 있습니다. 단, 이 방식도 고객 기반이 작거나 편향된 경우 문제가 발생할 수 있다는 한계가 있습니다.
향후 개선 방향
연구진은 Chatbot Arena가 더 공정하고 투명한 벤치마크가 되기 위한 몇 가지 개선 방안을 제시했습니다:
- 비공개 테스트 횟수 제한: AI 기업이 수행할 수 있는 비공개 테스트 횟수에 명확한 제한을 두어야 합니다.
- 모든 테스트 결과 공개: 비공개 테스트의 결과도 공개하여 선별적 공개로 인한 통계적 왜곡을 방지해야 합니다.
- 균등한 샘플링 비율: 모든 모델이 동일한 수의 대결에 참여할 수 있도록 샘플링 알고리즘을 조정해야 합니다.
- 오픈소스와 상용 모델 간 균형: 모델 제외 정책이 모든 유형의 모델에 균등하게 적용되어야 합니다.
LM Arena는 이 중 샘플링 알고리즘 개선에 대해서는 긍정적인 반응을 보였으나, 비공개 테스트 결과 공개에 대해서는 “공개적으로 사용할 수 없는 사전 출시 모델의 점수를 보여주는 것은 의미가 없다”며 거부했습니다.
결론: 신뢰할 수 있는 AI 평가를 위하여
AI 모델 벤치마크는 단순한 숫자 이상의 의미를 가집니다. 이는 기업의 투자 결정, 연구 방향 설정, 그리고 궁극적으로 사용자들이 어떤 AI 모델을 선택할지에 영향을 미치는 중요한 지표입니다. 따라서 벤치마크의 공정성과 투명성은 AI 생태계의 건전한 발전을 위해 반드시 보장되어야 합니다.
Chatbot Arena를 둘러싼 이번 논란은 현재 AI 평가 시스템의 한계를 드러내는 동시에, 더 나은 평가 방식을 모색할 기회를 제공합니다. 특히 흥미로운 점은 이 논란이 Chatbot Arena가 기업화를 추진하는 시점에서 발생했다는 것입니다. 최근 블룸버그 보도에 따르면 LM Arena는 투자자들로부터 자금을 조달하여 정식 회사로 전환할 계획을 발표했습니다.
AI 모델 평가는 복잡한 문제이며, 단일 벤치마크가 모든 측면을 완벽하게 평가할 수는 없습니다. 중요한 것은 다양한 평가 방식을 통해 모델의 성능을 종합적으로 판단하고, 각 벤치마크의 한계와 특성을 이해하는 것입니다. 또한 벤치마크 자체도 지속적인 개선과 투명성 확보를 통해 신뢰성을 높여가야 할 것입니다.
AI가 우리 사회에 미치는 영향력이 커질수록, 그 성능과 한계를 정확히 이해하는 것은 더욱 중요해집니다. ‘리더보드 환상’에 대한 인식은 AI 모델을 더 비판적이고 정확하게 평가하는 첫걸음이 될 것입니다.
Comments