AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트 스킬 연구 결과, 사람이 만든 것만 효과 있었다

에이전트 스킬(Agent Skills)을 팀에 도입했는데 기대만큼 효과가 없다면, 만드는 방식이 문제일 가능성이 높습니다. 최근 4편의 연구논문이 스킬의 실제 성능을 처음으로 체계적으로 측정했고, 결과는 꽤 명확합니다.

사진 출처: O’Reilly Radar

Anthropic이 2025년 12월 에이전트 스킬 오픈 표준을 발표한 이후, Atlassian·Canva·Stripe·Microsoft 등이 빠르게 도입했습니다. 스킬 하나를 잘 만들어두면 이를 이해하는 모든 에이전트가 활용할 수 있다는 아이디어입니다. 그런데 이 스킬이 실제로 얼마나 효과적인지, 무엇이 실패를 부르는지를 다룬 연구는 이제야 나오고 있습니다.

출처: Agent Skills Work but the Research Shows Most Teams Are Building Them Wrong – O’Reilly Radar (원문: The Nuanced Perspective)

스킬은 무엇이고, 도구(MCP)와 어떻게 다른가

에이전트 스킬은 팀 고유의 워크플로 지식을 에이전트에 심는 방식입니다. 실체는 간단합니다. SKILL.md 파일 하나를 중심으로, 트리거 조건·단계별 지침·참고 스크립트가 담긴 폴더입니다. 에이전트는 세션 시작 시 각 스킬의 이름과 설명만 읽습니다(스킬당 약 100토큰). 실제 지침은 해당 스킬이 활성화될 때만 메모리에 올라옵니다. 수백 개의 스킬을 설치해도 초기화 비용이 거의 없는 이유입니다.

MCP(Model Context Protocol)와의 차이도 여기서 명확해집니다. MCP는 셸, API 연결, 데이터베이스 접근처럼 에이전트에게 능력(ability)을 줍니다. 스킬은 그 능력을 조직의 방식대로 잘 쓰는 법(how)을 담습니다. GitHub Actions YAML과 그 실행 러너의 관계와 비슷합니다.

사람이 만든 스킬만 효과가 있었다

에이전트 스킬 전용 첫 벤치마크인 SkillsBench는 11개 도메인 84가지 과제를 세 가지 조건으로 테스트했습니다. 스킬 없음, 사람이 큐레이션한 스킬, 모델이 스스로 생성한 스킬.

사람이 만든 스킬은 평균 과제 완료율을 16.2% 높였습니다. 도메인별로 차이가 컸는데, 소프트웨어 엔지니어링은 4.5% 개선에 그쳤지만, 의료 분야처럼 고도로 구조화된 워크플로가 있는 영역은 약 52% 향상됐습니다.

반면 모델이 스스로 스킬을 생성하는 방식은 어떤 구성에서도 일관된 효과를 보이지 못했습니다. 일부 구성에서 소폭 이득이 있었지만, 소폭 손실도 나타났습니다. 연구팀의 결론은 이렇습니다. 모델은 자신이 소비하면 도움이 되는 절차적 지식을 스스로 작성하는 데 신뢰할 수 없다.

이유는 스킬의 본질에 있습니다. 스킬의 핵심 가치는 일반적인 추론으로는 도달할 수 없는 팀 고유의 예외 처리, 우리 팀만의 배포 순서, 우리 회사 기준으로 계산하는 ‘매출’ 정의 같은 것들입니다. 모델이 즉석에서 스킬을 생성하면 메인 플로우는 커버하지만, 정작 스킬이 필요한 이유인 그 예외들을 담지 못합니다.

SkillsBench는 또 하나의 실용적인 발견을 했습니다. 모듈 2~3개로 집중된 스킬이 광범위한 문서를 담은 스킬보다 일관되게 성능이 높았습니다. 그리고 잘 만든 스킬을 갖춘 소형 모델이 스킬 없는 대형 모델을 능가했습니다. 비용 측면에서 의미 있는 결과입니다.

라이브러리가 커지면 플랫 구조는 무너진다

스킬 하나는 잘 작동합니다. 그런데 수십 개가 쌓이면 다른 문제가 생깁니다.

AgentSkillOS 논문은 200개에서 200,000개 규모까지 스킬 생태계를 대상으로 이 문제를 처음 체계적으로 연구했습니다. 플랫 디렉터리에 스킬이 80개를 넘어서면 에이전트의 검색 정확도가 떨어지기 시작합니다. 설명이 비슷한 두 스킬이 같은 상황에서 번갈아 호출되며 동일한 입력에도 동작이 달라집니다. 극단적인 경우엔 라우팅 붕괴(routing collapse)가 발생합니다. 의미적으로 구분이 어려운 두 스킬 중 항상 엉뚱한 쪽이 선택되는 현상입니다. 출력은 그럴듯해 보이지만, 실행된 스킬은 틀린 것입니다.

해법은 계층 구조입니다. 스킬을 코드·데이터·문서 같은 상위 도메인으로 나누고, 그 아래 세부 스킬을 배치합니다. 에이전트는 전체를 스캔하는 대신 도메인 → 브랜치 → 리프 순으로 탐색합니다. 잘 사용되지 않거나 성과를 내지 못하는 스킬은 휴면 인덱스로 분류해 활성 스킬의 검색을 오염시키지 않도록 합니다.

라이브러리 규모가 커질수록 이 차이는 벌어집니다. Atlassian이 Rovo 에이전트에 에이전트당 5개 이하의 스킬을 권장하는 것도, OpenHands가 하나의 통합 스킬 세트 대신 워크플로별로 분리된 패키지를 유지하는 것도 같은 원리입니다.

커뮤니티 스킬 4개 중 1개는 보안 구멍이 있다

31,132개의 커뮤니티 스킬을 분석한 대규모 보안 연구에서, 26.1%가 악용 가능한 취약점을 하나 이상 가지고 있었습니다. 프롬프트 인젝션, 데이터 탈취, 권한 상승, 공급망 위험이 주요 유형입니다.

공개 저장소에서 스킬을 설치하는 일은 신원 불명의 npm 패키지를 설치하는 것과 다르지 않습니다. 스킬은 여러분이 읽는 문서가 아니라, 에이전트의 권한으로 실행되는 코드입니다. 스킬이 요청하는 권한이 실제 작업에 필요한 범위와 일치하는지, 스크립트 폴더가 무엇을 하는지는 설치 전에 확인해야 합니다.

스킬은 이제 코드처럼 관리해야 한다

네 편의 연구를 관통하는 메시지는 하나입니다. 스킬은 점점 인프라가 되고 있고, 좋은 엔지니어링 팀이 코드베이스를 다루듯 관리되어야 합니다.

모델의 기반 능력은 계속 향상됩니다. 6개월 전 모델의 한계를 보완하기 위해 만든 스킬이 지금은 오히려 더 나은 기본 동작을 덮어쓰고 있을 수 있습니다. 스킬 라이브러리가 아직 머릿속에 담길 만한 크기일 때, 평가 기준과 폐기 프로세스를 함께 만들어두는 팀이 나중에 유리합니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다