ScarfBench는 IBM Research가 공개한 AI 에이전트 벤치마크다. 목적은 단순 알고리즘 문제 풀이가 아니라, 엔터프라이즈 Java 애플리케이션을 한 프레임워크에서 다른 프레임워크로 마이그레이션하는 능력을 평가하는 것이다.
왜 Java 마이그레이션인가
기업 소프트웨어에는 오래된 Spring, Java EE, 내부 프레임워크, 커스텀 빌드 시스템이 얽혀 있다. 마이그레이션은 파일 몇 개를 고치는 문제가 아니라 다음 작업을 포함한다.
- 기존 동작과 테스트 이해
- 의존성·설정·어노테이션 변환
- 빌드 실패와 런타임 오류 수정
- 프레임워크 관용구에 맞춘 코드 재구성
- 회귀 테스트로 동작 보존 확인
이런 작업은 agent-harness와 코드 실행 환경, 긴 컨텍스트, 반복 디버깅 능력을 동시에 요구한다.
평가 관점
ScarfBench는 AI 에이전트가 실제 코드베이스에서 프레임워크 마이그레이션을 수행할 때 다음 능력을 본다.
| 평가 축 | 의미 |
|---|---|
| 기능 보존 | 기존 테스트와 비즈니스 로직을 깨지 않는가 |
| 빌드 재현성 | 마이그레이션 후 프로젝트가 안정적으로 빌드되는가 |
| 프레임워크 이해 | 단순 문자열 치환이 아니라 대상 프레임워크의 패턴을 적용하는가 |
| 장기 작업 수행 | 여러 오류를 순차적으로 해결하며 완결까지 가는가 |
실무적 의미
ScarfBench는 코딩 모델 성능을 HumanEval류 짧은 문제만으로 판단하면 안 된다는 신호다. 실제 기업 도입에서는 “새 기능 구현”보다 “낡은 시스템을 안전하게 바꾸기”가 더 큰 비용을 차지한다. Java 마이그레이션 벤치마크는 에이전트가 레거시 코드와 테스트를 다루는 능력을 더 직접적으로 보여준다.
사용 대상
- Java·Spring 기반 레거시 시스템을 현대화하려는 엔터프라이즈 개발 조직
- 코딩 에이전트 벤치마크를 내부 업무와 맞춰 설계하려는 플랫폼 팀
- 에이전트가 수행한 대규모 코드 변경의 회귀 위험을 측정하려는 QA·DevEx 팀
관련 문서
- agent-harness — 에이전트 실행 루프와 안전장치 설계
- snyk-vulnbench-js — 보안 취약점 수정 중심 벤치마크
- verification-driven-tooling-tips — 검증 중심 개발 도구 설계
참고 자료
- ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration — Hugging Face Blog / IBM Research (2026-06-30)