Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트

2026-03-12

﹒

AI 활용 가이드

﹒

2 minutes

스킬을 만들었는데 잘 작동하는지 확인하려면 직접 써보는 수밖에 없었습니다. Claude 모델이 업데이트되면 또 처음부터 확인해야 했고요. Anthropic이 이 문제를 해결하는 기능을 내놨습니다.

사진 출처: Anthropic

Anthropic이 Agent Skills 제작 도구인 skill-creator를 업데이트했습니다. 이번 업데이트의 핵심은 코드 없이 스킬을 테스트하고, 성능을 측정하고, 개선할 수 있는 도구를 스킬 제작자에게 제공한다는 것입니다.

출처: Improving skill-creator: Test, measure, and refine Agent Skills – Anthropic

Agent Skills란 무엇인가

Agent Skills는 Claude에게 특정 작업을 수행하는 방법을 가르치는 일종의 레시피입니다. 예를 들어 “Word 문서를 만들 때는 이 형식과 이 순서를 따르라”거나, “계약서를 검토할 때는 이 기준으로 이 항목들을 확인하라”는 식의 지침을 담습니다.

지금까지는 이 스킬이 잘 작동하는지 확인할 마땅한 방법이 없었습니다. 스킬을 직접 실행해보거나, Claude 모델이 업데이트된 후 달라진 점이 없는지 일일이 사용해봐야 했죠. Anthropic에 따르면 스킬 제작자 대부분이 엔지니어가 아닌 업무 전문가라서 이 문제가 더 두드러졌습니다.

“잘 되는 것 같다”에서 “잘 된다는 것을 안다”로

이번 업데이트의 핵심 기능은 eval(평가 테스트)입니다. 스킬에 기대하는 동작을 미리 정의해두고, 실제로 그렇게 작동하는지 자동으로 검증하는 방식입니다.

사용법은 간단합니다. 테스트용 프롬프트를 몇 개 작성하고, “이 입력에 대해 좋은 결과란 어떤 것인지”를 설명해두면 됩니다. 이후 skill-creator가 스킬을 실행하고 기준을 충족했는지 알려줍니다.

Anthropic의 PDF 스킬이 좋은 예입니다. 서식 항목(필드)이 없는 PDF 양식에 텍스트를 채울 때 기존 스킬이 제대로 작동하지 않는 문제가 있었는데, eval을 통해 정확히 어느 지점에서 실패하는지 찾아냈고, 텍스트 좌표를 기준점으로 삼는 방식으로 수정할 수 있었습니다.

Eval이 특히 유용한 두 가지 상황이 있습니다.

첫 번째는 모델 업데이트 이후입니다. 지난달까지 잘 작동하던 스킬이 모델이 바뀐 뒤 달라질 수 있습니다. Eval을 실행하면 실제 사용자에게 영향이 가기 전에 미리 이상을 감지할 수 있습니다.

두 번째는 스킬이 더 이상 필요 없어졌을 때입니다. Claude가 발전하면서 예전엔 스킬로 가르쳐야 했던 것을 기본으로 할 수 있게 되는 경우가 생깁니다. 스킬 없이도 eval을 통과하기 시작한다면, 그 기능이 모델 안에 이미 녹아들었다는 신호입니다. 스킬이 고장난 게 아니라, 이제 없어도 된다는 뜻이죠.

더 빠르고 공정한 비교

Eval을 하나씩 순서대로 실행하면 느리고, 앞선 테스트의 결과가 다음 테스트에 영향을 줄 수 있습니다. 멀티 에이전트 지원 기능이 추가되면서 이제 독립된 에이전트들이 각각 깨끗한 환경에서 동시에 테스트를 실행합니다.

비교 에이전트(Comparator agent)도 새로 생겼습니다. 스킬을 수정했을 때 실제로 나아졌는지 확인하거나, 스킬이 있을 때와 없을 때의 차이를 비교하는 용도입니다. 어느 쪽 결과인지 모른 채로 판단하기 때문에 편향 없이 비교할 수 있습니다.

벤치마크 모드를 사용하면 eval 통과율, 처리 시간, 토큰 사용량을 수치로 기록하고 추적할 수 있습니다. 모델 업데이트마다, 또는 스킬을 수정할 때마다 실행해 변화를 파악하는 데 씁니다.

스킬이 엉뚱한 상황에서 발동하는 문제

출력 품질 못지않게 중요한 것이 스킬이 맞는 상황에서만 발동하느냐입니다. 스킬 수가 늘어날수록 이 문제가 커집니다. 스킬 설명을 너무 넓게 쓰면 관계없는 상황에서도 스킬이 켜지고, 너무 좁게 쓰면 실제로 필요한 상황에서 발동하지 않습니다.

이번 업데이트에서 skill-creator는 현재 스킬 설명을 샘플 프롬프트와 비교해 분석하고, 오발동과 미발동을 줄이는 수정안을 제안합니다. Anthropic이 자체 문서 생성 스킬 6개에 적용해본 결과, 5개에서 트리거 정확도가 개선됐습니다.

스킬의 미래

Anthropic은 이번 업데이트에서 흥미로운 전망을 내놨습니다. 현재 SKILL.md 파일은 Claude에게 어떻게 수행할지 알려주는 상세한 구현 지침입니다. 모델이 충분히 발전하면 무엇을 해야 하는지만 설명해도 나머지는 모델이 처리할 수 있게 될 것이라고 봅니다.

오늘 공개한 eval 프레임워크가 그 방향으로 가는 첫 걸음입니다. Eval은 이미 “무엇을 해야 하는지”를 정의합니다. 언젠가 그 설명 자체가 스킬이 될 수도 있습니다.

모든 업데이트는 Claude.ai와 Cowork에서 지금 바로 사용할 수 있습니다. Claude Code 사용자는 플러그인 또는 레포지토리에서 설치할 수 있습니다.

참고자료:

Agent Skills 출시 발표 – Anthropic
skill-creator GitHub 레포지토리

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트

Agent Skills란 무엇인가

“잘 되는 것 같다”에서 “잘 된다는 것을 안다”로

더 빠르고 공정한 비교

스킬이 엉뚱한 상황에서 발동하는 문제

스킬의 미래

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

말로 설명하지 말고 그냥 보여주세요, Gemini Live 카메라 기능

화려한 AI 투자 발표 뒤에 숨은 1.65조 달러의 빚

퇴사하면 사라지는 회사 ChatGPT 대화, 미리 백업해두는 법

취약점 탐지에 대형 AI가 필요 없다는 걸 증명한 모델들