FrontierCode – 코드 품질과 PR 병합 가능성을 측정하는 코딩 벤치마크

왜 새로운 벤치마크가 필요했는가
평가 구조
3단계 난이도 세트
평가 지표
평가 축
신규 채점 기법
Reverse-Classical
Code Scope
Adaptive Classical Grading
현재 모델 성능 (2026-06-09 기준)
누가 사용하면 좋은가
참고 자료

FrontierCode는 Cognition AI(Devin 개발사)가 발표한 코딩 에이전트 평가 벤치마크다. 기존 SWE-Bench 계열 벤치마크가 “코드가 테스트를 통과하는가”만 측정하는 것과 달리, FrontierCode는 “실제 유지보수자가 이 PR을 병합할 것인가”를 평가한다. 20명 이상의 세계 정상급 오픈소스 유지보수자가 각 태스크당 40시간 이상 투자해 제작했다.

왜 새로운 벤치마크가 필요했는가

SWE-Bench Verified·Pro 등 1세대 코딩 벤치마크는 기능적 정확성(functional correctness)만 측정한다. 그런데 METR의 분석에 따르면, 고득점 모델도 실제 유지보수자라면 병합하지 않을 패치를 상당수 제출한다. 두 가지 분류 오류가 문제다:

거짓 양성(False Positive): 테스트 커버리지 미흡으로, 틀린 코드가 통과됨
거짓 음성(False Negative): 너무 엄격하거나 풀 수 없는 테스트로, 옳은 코드가 탈락됨

FrontierCode는 기존 대비 81% 낮은 오분류율을 달성한다고 밝혔다.

평가 구조

3단계 난이도 세트

세트	태스크 수	설명
Diamond	50	최고 난이도
Main	100	Diamond 포함
Extended	150	전체

평가 지표

각 솔루션은 두 가지 지표로 평가된다:

Pass rate: 모든 블로커(blocker) 기준을 통과한 비율
Score: 블로커+논블로커 항목을 가중 합산한 점수 (블로커 미통과 시 0점)

블로커: 유지보수자가 병합을 거부할 만큼 치명적인 기준 (정확성, 성능, 스코프 등) 논블로커: 병합은 되지만 품질 신호로 반영되는 기준 (코드 스타일, 타입 안전성, 가독성 등)

평가 축

카테고리	채점 방법
동작 정확성	Classical (단위 테스트 주입)
회귀 안전성	Command (빌드·린트 실행, exit 0 확인)
테스트 품질	Reverse-Classical (에이전트 작성 테스트가 기존 코드베이스에서 실패하는지 확인)
오픈엔디드 정확성	Adaptive Classical Grading (LLM이 레퍼런스 테스트를 구현에 맞게 조정 후 실행)
스코프	Scope (수정 파일, 라인 수, 변경 위치 제한)
코드 품질	Prompt-based LLM 리뷰

신규 채점 기법

Reverse-Classical

에이전트가 작성한 테스트를 수정 전 기존 코드베이스에 실행해 실패하는지 확인한다. 통과해야 의미 있는 테스트다. 에이전트가 문제를 이해했는지를 결정론적으로 검증할 수 있다.

Code Scope

PR이 필요한 범위만 수정했는지 자동 확인한다. files(허용·금지 파일), size(변경 라인·파일 수), semantic(함수 단위 의미 범위) 세 가지 제약을 조합한다.

Adaptive Classical Grading

여러 유효한 구현이 존재하는 개방형 태스크에서 정적 단위 테스트의 경직성 문제를 해결한다. LLM이 레퍼런스 테스트나 애플리케이션 코드를 에이전트 구현에 맞게 외과적으로 수정한 뒤 결정론적 테스트를 실행한다.

현재 모델 성능 (2026-06-09 기준)

모델	Diamond	Main	Extended
Claude Opus 4.8	13.4%	34.3%	51.8%
GPT-5.5	6.3%	—	—
Gemini 3.1 Pro	4.7%	—	—
Kimi K2.6 (오픈소스 최고)	3.8%	16%	37%

Diamond는 아직 포화 상태가 아니며, 최고 성능 모델도 13.4% 수준에 그친다. GPT-5.5는 Opus 4.8보다 최대 4배 적은 토큰으로 비슷한 비용 대비 성능을 보인다.

누가 사용하면 좋은가

AI 연구자·에이전트 개발자: 모델의 실제 코드 품질을 평가하거나, 새로운 에이전트 시스템의 상대적 성능을 측정할 때
기업 AI 도입 담당자: 단순 통과율이 아닌 실제 업무 코드 품질 기준으로 모델을 비교할 때
오픈소스 유지보수자: 자신의 레포지토리에 AI 에이전트 기여를 도입하기 전 기준선을 설정할 때

참고 자료

Introducing FrontierCode — Cognition AI 블로그 (2026-06)

Like?

AI Sparkup