Claude Code에게 LangChain으로 에이전트를 만들어 달라고 하면 어떻게 될까요? 스킬 없이는 네 번 중 한 번만 제대로 해냅니다.

LangChain이 AI 코딩 에이전트를 위한 첫 번째 스킬 세트를 공개했습니다. LangChain, LangGraph, LangSmith 생태계에 특화된 이 스킬들을 장착하면 Claude Code의 LangChain 관련 태스크 통과율이 25%에서 95%로, LangSmith 태스크는 17%에서 92%로 올라갑니다.
출처:
- LangChain Skills – LangChain Blog
- LangSmith CLI & Skills – LangChain Blog
- Evaluating Skills – LangChain Blog
스킬이란 무엇인가
스킬은 코딩 에이전트의 성능을 높이기 위한 지침과 스크립트의 묶음입니다. 핵심은 ‘프로그레시브 디스클로저(progressive disclosure)’라는 방식인데, 에이전트가 필요한 순간에만 해당 스킬을 불러옵니다. 처음부터 모든 정보를 컨텍스트에 넣어두면 오히려 성능이 떨어진다는 사실이 이미 알려져 있어서, LangChain은 이 동적 로딩 방식을 채택했습니다.
쉽게 말하면 에이전트에게 “필요할 때만 꺼내 쓰는 전문 매뉴얼”을 쥐여주는 것과 비슷합니다. 스킬은 마크다운 파일과 스크립트로 구성되어 있어 어떤 코딩 에이전트에도 이식할 수 있습니다.
LangChain이 공개한 스킬들
이번에 공개된 스킬은 크게 두 묶음입니다.
LangChain 스킬 (11종)은 LangChain의 에이전트 루프 기초, LangGraph의 Human-in-the-Loop와 내구성 실행, Deep Agents 패키지 활용을 다룹니다.
LangSmith 스킬 (3종)은 트레이싱 추가, 데이터셋 구축, 에이전트 평가로 구성됩니다. LangSmith CLI도 함께 출시되었는데, 에이전트가 터미널만으로 트레이스 조회, 데이터셋 관리, 실험 실행을 모두 처리할 수 있도록 설계된 도구입니다.
스킬을 만들면 평가가 필요하다
LangChain이 함께 공개한 평가 방법론도 주목할 만합니다. 스킬은 일종의 프롬프트이기 때문에 예상치 못한 방식으로 에이전트 동작에 영향을 줄 수 있고, 검증 없이는 믿기 어렵습니다.
LangChain이 제안하는 평가 흐름은 이렇습니다. 일관된 테스트 환경(Docker 등)을 구성하고, 스킬 없이 에이전트를 실행한 뒤 스킬을 추가해 성능을 비교합니다. 이 과정에서 몇 가지 발견이 흥미롭습니다.
스킬을 포함했을 때 Claude Code의 태스크 완료율은 82%였지만, 스킬 없이는 9%에 그쳤습니다. 스킬이 항상 올바르게 호출되지는 않아서, 특정 태스크에서 관련 스킬 호출률이 70%에 머물기도 했습니다. AGENTS.md나 CLAUDE.md에 “언제 어떤 스킬을 쓰라”는 안내를 넣어야 일관성이 올라갔고, 유사한 스킬이 20개일 때는 잘못된 스킬을 호출하는 경우가 생겼지만 12개로 줄이자 정확도가 높아졌습니다.
에이전트가 에이전트를 개선하는 루프
LangSmith 스킬이 흥미로운 이유는 단순히 LangSmith 사용법을 알려주는 것이 아니라, 에이전트 스스로 개선 사이클을 돌릴 수 있게 하기 때문입니다. 코딩 에이전트가 스킬을 활용해 자신의 실행 트레이스를 LangSmith로 전송하고, 그 트레이스를 분석해 문제점을 요약하고, 이를 바탕으로 테스트 데이터셋과 평가자를 만드는 흐름이 가능해집니다.
LangChain은 앞으로 에이전트 개선 루프가 점점 “터미널 기반의 다른 에이전트”에 의해 주도될 것이라고 전망합니다. 스킬과 LangSmith CLI는 그 흐름을 위한 기반 도구인 셈입니다. 벤치마크 리포와 구체적인 평가 파이프라인 구성 방법은 원문에서 확인할 수 있습니다.
참고자료:

답글 남기기