AI 모델이 코딩을 얼마나 잘하는지 측정하는 기준이 사실 믿을 수 없었다면 어떨까요?

OpenAI가 자신들이 직접 만든 코딩 벤치마크 ‘SWE-bench Verified’를 더 이상 사용하지 않겠다고 공식 선언했습니다. AI 코딩 능력을 측정하는 업계 표준으로 자리잡은 이 벤치마크에서 근본적인 결함 두 가지를 발견했기 때문입니다. 점수가 올라도 모델의 실제 코딩 실력이 좋아진 것이 아닐 수 있다는 결론입니다.
출처: Why SWE-bench Verified no longer measures frontier coding capabilities – OpenAI
SWE-bench Verified란
SWE-bench는 실제 GitHub 오픈소스 저장소에서 가져온 버그 수정 과제들로 구성된 벤치마크입니다. AI 모델이 이슈 설명만 보고 코드를 수정하면, 사전에 작성된 테스트를 통과하는지로 점수를 매깁니다. OpenAI가 2024년 8월에 발표한 ‘Verified’ 버전은 전문 소프트웨어 엔지니어 3명이 각 문제를 검토해 품질을 높인 500개 문제 세트로, GPT-4o, Claude, Gemini 등 거의 모든 프런티어 모델이 출시 때마다 이 점수를 공개해왔습니다.
최근 6개월간 최고 점수는 74.9%에서 80.9%로 올랐지만, 상승 속도가 눈에 띄게 둔화됐습니다. OpenAI는 이 정체가 모델의 한계인지, 아니면 벤치마크 자체의 문제인지 조사에 나섰습니다.
결함 1: 정답을 오답으로 판정하는 테스트
OpenAI는 o3가 64번 시도해도 풀지 못한 문제 138개를 6명 이상의 숙련된 소프트웨어 엔지니어가 직접 검토했습니다. 결과는 충격적이었습니다. 감사한 문제의 59.4%가 결함 있는 테스트를 포함하고 있었습니다. 맞는 풀이를 냈는데도 틀렸다고 판정하는 문제가 절반을 넘었다는 뜻입니다.
두 가지 유형으로 나뉩니다. 첫째는 ‘좁은 테스트(narrow test)’로, 문제 설명에는 언급조차 없는 특정 함수 이름이나 구현 방식을 강제하는 경우입니다(35.5%). 예를 들어 get_annotation이라는 이름의 함수를 만들지 않으면 임포트 오류로 실패하는데, 이 이름은 문제 설명 어디에도 없습니다. 둘째는 ‘넓은 테스트(wide test)’로, 문제 설명이 요구하는 것보다 더 많은 기능을 테스트가 검사하는 경우입니다(18.8%). 설명에는 버그 하나만 고치라고 했는데 테스트는 관련 없는 다른 버그 두 개까지 함께 수정했는지 확인합니다.
결함 2: 모델이 이미 답을 알고 있다
더 심각한 문제는 훈련 데이터 오염입니다. SWE-bench 문제들은 공개된 오픈소스 저장소에서 가져왔고, 많은 모델 제공자들이 이 저장소들을 훈련 데이터로 활용합니다. 다시 말해, 모델들이 시험 문제와 정답을 미리 본 채로 시험을 치르는 셈입니다.
OpenAI는 GPT-5를 사용해 GPT-5.2, Claude Opus 4.5, Gemini 3 Flash에 오염 여부를 자동으로 탐지하는 실험을 진행했습니다. 결과적으로 세 모델 모두에서 강한 오염 증거를 발견했습니다. GPT-5.2는 문제 설명 일부만 주었을 때 정확한 정답 코드(gold patch)를 그대로 출력했고, Claude Opus 4.5는 수정된 함수 이름, 파일명, 코드 내 인라인 주석까지 정확하게 재현했습니다. Gemini 3 Flash는 태스크 ID만 받고도 문제 설명과 정답 내용을 그대로 말했습니다.
특히 문제적인 것은 오염과 테스트 결함이 연결된다는 점입니다. 설명만으로는 알 수 없는 특정 구현 방식을 요구하는 테스트에서, 훈련 중에 정답을 본 모델은 그 정보를 활용해 통과할 수 있습니다. 즉, 벤치마크 점수가 오르는 이유가 실력 향상이 아니라 정답 암기일 수 있습니다.
벤치마크 신뢰성 문제는 업계 전체의 과제
OpenAI는 SWE-bench Verified 점수 보고를 중단하고 다른 모델 개발사들도 같은 결정을 내릴 것을 권고했습니다. 당장의 대안으로는 SWE-bench Pro를 추천했는데, 오염 사례가 훨씬 드물고 어떤 모델도 정답 코드를 통째로 재현하지 못했다고 밝혔습니다.
이번 사례는 AI 벤치마크 평가 전반에 중요한 교훈을 남깁니다. 공개된 자료를 기반으로 만든 벤치마크는 오염 위험을 피하기 어렵고, 자동화된 채점 역시 완전히 믿기 어렵습니다. OpenAI는 전문가가 직접 설계한 비공개 벤치마크 방식이 필요하다는 입장이며, GDPVal이 그 시도 중 하나입니다. 벤치마크에서 좋은 점수가 곧 좋은 모델을 의미한다는 공식이 흔들리고 있습니다.
참고자료: SWE-bench Pro

답글 남기기