AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

2026-04-16

﹒

AI 인사이트

﹒

2 minutes

벤치마크에서 55%이던 성공률이 현실 조건에서는 38%로 주저앉았습니다. 더 약한 모델들은 스킬을 쓰는 게 오히려 독이 돼, 아무것도 쓰지 않았을 때보다 성적이 나빴습니다.

사진 출처: The Decoder

UC Santa Barbara·MIT CSAIL·MIT-IBM Watson AI Lab 연구팀이 오픈소스 스킬 34,198개를 수집해 AI 에이전트의 스킬 활용 능력을 체계적으로 평가한 논문을 발표했습니다. 에이전트 스킬이 이상적인 조건이 아니라 현실 조건에서 얼마나 유효한지 처음으로 대규모로 검증한 연구입니다.

출처: How Well Do Agentic Skills Work in the Wild – arXiv (UC Santa Barbara·MIT CSAIL·MIT-IBM Watson AI Lab)

기존 벤치마크는 왜 믿기 어려운가

에이전트 스킬이란 AI 시스템이 특정 작업을 처리할 때 꺼내 쓸 수 있는 구조화된 지식 파일입니다. 워크플로, API 사용법, 모범 사례 같은 도메인별 정보를 담고 있고, 에이전트는 작업 중에 이걸 찾아서 적용합니다. Anthropic이 Claude Code에 처음 도입한 이후 OpenAI Codex 등 여러 플랫폼으로 확산됐습니다.

그런데 지금까지 쓰이던 벤치마크(SKILLSBENCH)에는 결정적인 문제가 있었습니다. 에이전트에게 과제에 딱 맞는 스킬을 미리 골라서 직접 건네줬습니다. 논문이 든 예시를 보면 그 정도가 분명합니다. 홍수 감지 과제를 줄 때, 제공된 스킬 3개 안에 필요한 API 호출법, URL, 코드 스니펫이 이미 다 들어 있었습니다. 연구팀은 이를 두고 “스킬이 정답지나 다름없다”고 표현했습니다.

현실은 다릅니다. 에이전트는 수천 개의 스킬 더미에서 스스로 필요한 것을 찾아야 하고, 딱 맞는 스킬이 아예 없을 수도 있습니다.

현실 조건에 가까워질수록 성능이 무너진다

연구팀은 6단계의 점진적으로 현실적인 시나리오를 설계해 Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B 세 모델을 테스트했습니다.

Claude Opus 4.6의 경우, 스킬을 직접 건네줬을 때 55.4%였던 통과율이 단계별로 떨어졌습니다. 에이전트가 직접 스킬을 골라야 하는 상황에선 51.2%, 관련 없는 스킬을 섞어 넣으면 43.5%, 3만4천 개 풀에서 직접 검색하면 40.1%, 그리고 맞춤형 스킬 자체가 없을 때는 38.4%까지 내려갔습니다. 스킬을 전혀 쓰지 않는 기준선이 35.4%이니, 그 차이는 약 3%포인트에 불과합니다.

더 약한 모델들은 상황이 더 안 좋았습니다. Kimi K2.5는 가장 현실적인 조건에서 19.8%로, 스킬 없는 기준선(21.8%)을 밑돌았습니다. Qwen3.5-397B도 마찬가지였습니다. 관련 없는 스킬이 섞이면, 에이전트가 그것을 읽고 따르느라 오히려 방향을 잃는 겁니다.

에이전트가 막히는 세 지점

연구팀은 성능 저하의 원인을 세 가지로 정리했습니다.

스킬 선별 실패: 맞춤형 스킬이 바로 옆에 있어도 Claude는 49%의 경우에만 그것을 모두 불러왔습니다. 관련 없는 스킬이 섞이면 31%로 내려갔습니다.
검색 정확도의 한계: 독립적으로 스킬을 검색하면 상위 5개 안에 필요한 것이 들어올 확률(Recall@5)이 최대 65.5%에 머물렀습니다. 에이전트가 반복적으로 쿼리를 다듬는 ‘에이전틱 하이브리드 검색’이 단순 의미 검색보다 18.7%포인트 높은 성능을 보였지만, 근본적인 한계를 해결하진 못했습니다.
범용 스킬 적응 불가: 과제에 딱 맞는 스킬이 없을 때 에이전트는 유사한 스킬을 응용하지 못하고 그냥 지나쳤습니다.

정제가 도움이 되긴 하지만, 조건이 있다

연구팀은 성능 회복 방법으로 ‘과제 특화 스킬 정제’를 실험했습니다. 에이전트가 먼저 과제를 탐색하고, 검색된 스킬의 유용성을 평가한 뒤 더 나은 스킬을 새로 만드는 방식입니다. Claude의 경우 이 방법으로 40.1%에서 48.2%로 성능이 회복됐고, Terminal-Bench 2.0에서는 스킬 없는 기준선 57.7%에서 65.5%까지 올라갔습니다.

단, 조건이 있습니다. 처음 검색된 스킬이 어느 정도 관련성을 갖고 있어야 정제가 효과를 냅니다. 완전히 엉뚱한 스킬을 아무리 정제해도 새로운 지식이 생기진 않습니다.

이 결과는 올해 초 Vercel의 연구 결과와도 맥이 닿습니다. 당시 연구에서도 56%의 경우 에이전트가 스킬을 아예 꺼내지 않았고, 단순한 마크다운 파일(AGENTS.md)을 컨텍스트에 직접 넣는 방식이 더 안정적이었습니다.

연구팀은 더 나은 검색 방법, 효과적인 오프라인 정제 전략, 그리고 모델 역량 차이를 반영한 스킬 생태계 설계가 필요하다고 마무리 짓습니다. 논문의 코드는 GitHub에 공개되어 있습니다.

참고자료: AGENTS.md outperforms skills in our agent evals – Vercel

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

기존 벤치마크는 왜 믿기 어려운가

현실 조건에 가까워질수록 성능이 무너진다

에이전트가 막히는 세 지점

정제가 도움이 되긴 하지만, 조건이 있다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

코드 한 줄 없이 Codex, 지식노동자를 위한 역할별 플러그인 출시

Nemotron 3 Ultra, 미국 오픈 모델 1위 등극했지만 중국엔 여전히 밀린다

AI 에이전트가 검색을 건너뛰는 순간, Google·NYU 연구가 발견한 4가지 패턴

OpenAI가 로보틱스로 돌아왔다, 5년 만에 폐지 팀을 다시 꺼낸 이유