AI 코딩 에이전트가 버그를 못 고칠 때, 우리는 보통 모델의 실력 문제라고 생각합니다. 그런데 문제는 실력이 아니라 ‘어디를 봐야 하는지 모르는 것’일 수도 있습니다. 상하이 교통대학교 연구팀이 이 질문을 처음으로 정량적으로 측정했고, 결과는 꽤 구체적이었습니다.

상하이 교통대학교를 포함한 국제 연구팀이 AI 코딩 에이전트의 코드 탐색 능력을 독립적으로 평가하는 벤치마크 SWE-Explore를 공개했습니다. 기존 평가 방식이 “버그를 고쳤는가”라는 결과만 봤다면, SWE-Explore는 그 이전 단계인 “관련 코드를 제대로 찾았는가”만을 따로 측정합니다. 203개 오픈소스 프로젝트, 10개 언어, 848개 이슈를 대상으로 한 이 연구에서 Claude Code, Codex, OpenHands 등 주요 에이전트들의 탐색 능력을 직접 비교했습니다.
출처: SWE-Explore: Benchmarking How Coding Agents Explore Repositories – arxiv (Zhang et al., 2026)
기존 평가가 놓친 것
SWE-bench로 대표되는 기존 코딩 벤치마크는 에이전트가 버그를 수정했는지 여부만 판단합니다. 이 방식의 문제는, 실패했을 때 그 이유를 전혀 알 수 없다는 점입니다. 에이전트가 관련 코드를 아예 찾지 못한 건지, 코드는 봤는데 잘못된 수정을 한 건지 구분이 안 됩니다.
SWE-Explore는 이 과정을 둘로 쪼갭니다. 버그 설명과 코드베이스를 받은 에이전트가 관련 코드 영역을 얼마나 잘 찾아내는지를 먼저 평가하고, 이 탐색 점수가 실제 수정 성공률과 얼마나 연결되는지를 별도로 확인하는 방식입니다.
정답 기준을 만드는 방법도 흥미롭습니다. 각 문제마다 GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 등 강력한 모델들이 실제로 성공한 풀이 시도를 최소 두 개 수집합니다. 여러 성공 경로가 공통으로 읽은 코드 구간을 ‘핵심 영역’으로 간주하는 방식입니다. 어떤 에이전트든 문제를 풀 때 이 영역을 실제로 참조했다는 증거에서 기준을 뽑아내므로, 수작업으로 정답을 정하는 것보다 훨씬 현실에 가깝습니다.
파일은 찾는데, 줄은 못 찾는다
결과의 핵심은 두 단계 사이의 극적인 격차입니다.
파일 수준에서 에이전트들의 성능은 꽤 양호합니다. 버그가 있는 파일을 목록 앞쪽에 올려놓는 데는 대부분 성공합니다. 문제는 그 파일 안에서 어느 줄이 실제로 중요한지를 좁혀야 할 때 벌어집니다. Claude Code, Codex, OpenHands를 포함한 일반 코딩 에이전트들은 핵심 코드 줄의 14~19%만 커버했습니다. 파일을 찾아 들어갔지만 정작 봐야 할 부분의 80% 이상을 그냥 지나친 셈입니다.
더 강한 언어 모델로 교체해도 이 패턴은 바뀌지 않았습니다. OpenAI, Anthropic, Google 등 6개 모델로 같은 에이전트를 돌려봐도 파일 탐색 성공률이 줄 단위 커버리지보다 일관되게 높게 유지됩니다. 모델 크기보다 에이전트가 코드를 탐색하는 방식 자체의 한계임을 시사합니다.
비교 대상 중 눈에 띄는 예외가 하나 있습니다. CoSIL이라는 연구용 시스템인데, 코드를 개별 함수와 클래스가 서로 연결된 네트워크로 모델링해서 탐색합니다. 줄 단위 커버리지에서 일반 에이전트들을 크게 앞서는데, 탐색 전략 자체가 달라야 한다는 방향을 가리킵니다.
탐색이 절반을 넘어야 수정이 된다
연구팀은 탐색과 수정의 관계를 더 구체적으로 확인하기 위해 통제 실험도 진행했습니다. 에이전트에게 핵심 영역의 0, 25, 50, 75, 100% 를 단계적으로 보여주면서 버그 수정 성공률이 어떻게 달라지는지 측정한 겁니다.
쉬운 문제들에서 뚜렷한 임계값 효과가 나타났습니다. 핵심 영역의 절반 미만을 본 경우에는 수정이 대부분 실패했습니다. 성공률이 올라가는 구간은 50~75% 사이였습니다. 점진적으로 조금씩 좋아지는 게 아니라, 어느 수준 이상의 맥락이 확보됐을 때 비로소 풀리기 시작하는 양상입니다.
반대로 관련 없는 코드를 추가로 보여줬을 때는 성능이 크게 나빠지지 않았습니다. 너무 조금 보는 것이 너무 많이 보는 것보다 훨씬 해롭다는 뜻으로, 연구팀은 이를 두고 “덜 걸러내고 더 많이 읽어야 한다”는 방향으로 해석합니다.
벤치마크가 보이지 않던 병목
SWE-Explore의 의미는 단순히 에이전트의 약점을 드러낸 것을 넘어섭니다. 지금까지 AI 코딩 성능 개선은 대부분 패치 생성 능력에 집중되어 왔는데, 탐색 단계가 독립적으로 평가되지 않았기 때문에 이 병목이 보이지 않았습니다. 이번 연구는 코드 탐색을 별도의 역량으로 분리해서 측정할 때 전혀 다른 개선 방향이 보인다는 것을 보여줍니다. 더 강한 모델보다, 코드를 관계의 네트워크로 탐색하는 방식의 전환이 실제 차이를 만들 수 있다는 단서이기도 합니다.
참고자료: AI coding agents find the right file but miss the exact lines that matter, study shows – The Decoder

답글 남기기