AI 에이전트 디버깅을 AI가 돕는다: LangSmith의 Polly와 CLI 도구

2025-12-16

﹒

2 minutes

AI 에이전트를 만들다 보면 뭔가 이상하게 작동할 때가 있습니다. 그런데 문제는 어디서 잘못됐는지 찾기가 너무 어렵다는 거죠. 요즘 에이전트들은 수백 단계를 거쳐 몇 분씩 실행되는데, 그 방대한 로그를 사람이 일일이 확인하기란 거의 불가능합니다.

사진 출처: LangChain Blog

LangChain이 이 문제를 해결하기 위해 두 가지 도구를 새롭게 선보였습니다. 하나는 AI가 에이전트를 분석해주는 Polly, 다른 하나는 터미널에서 바로 디버깅할 수 있는 LangSmith Fetch입니다. 복잡한 에이전트를 개발하는 사람이라면 주목할 만한 솔루션입니다.

출처:

Debugging Deep Agents with LangSmith – LangChain Blog
Introducing LangSmith Fetch – LangChain Blog

Deep Agents는 왜 디버깅이 어려울까?

최근 등장하는 “Deep Agents”는 단순한 LLM 호출이 아니라 수십에서 수백 단계를 거치며 실행됩니다. 프롬프트만 해도 수백에서 수천 줄에 달하고, 사용자와 여러 번 주고받으며 작업을 진행하죠. 문제가 생겼을 때 어느 프롬프트 부분이, 어느 도구 호출이, 어느 단계에서 잘못됐는지 파악하기가 매우 어렵습니다.

여기서 LangSmith의 트레이싱(tracing) 기능이 중요해집니다. LangSmith는 에이전트가 실행되는 동안 모든 단계를 기록합니다. LLM 호출, 도구 실행, 결정 지점까지 전부요. 이 데이터를 Run(개별 단계), Trace(한 번의 실행), Thread(전체 대화)로 구조화해서 저장하죠.

하지만 데이터가 너무 많으면 그것도 문제입니다. 수백 단계의 로그를 사람이 읽고 분석하는 건 비현실적이니까요.

Polly: AI가 AI를 디버깅한다

Polly는 LangSmith 안에서 작동하는 AI 어시스턴트입니다. 에이전트의 실행 데이터를 분석하고, 문제가 뭔지 찾아주고, 프롬프트 개선 방법까지 제안해줍니다.

Trace 뷰에서: “이 에이전트가 비효율적으로 작동한 부분이 있나요?”라고 물으면 Polly가 수백 단계를 스캔해서 답을 줍니다. 사람이 일일이 확인할 필요가 없죠.

Thread 뷰에서: 여러 대화가 이어진 전체 스레드를 분석합니다. 며칠에 걸친 대화 흐름까지 파악할 수 있어요.

Prompt Playground에서: “사용자가 이렇게 요청하면 이렇게 응답하게 만들어줘”라고 자연어로 설명하면, Polly가 프롬프트를 직접 수정해줍니다. 프롬프트 엔지니어링에 특화되어 있어서 구조화된 출력이나 도구 정의도 도와줍니다.

LangSmith Fetch: 터미널에서 바로 디버깅

UI가 편한 사람도 있지만, 터미널을 선호하는 개발자도 많습니다. 특히 Claude Code나 Cursor 같은 코딩 에이전트를 사용한다면 브라우저로 전환하는 게 오히려 방해가 되죠.

LangSmith Fetch는 한 줄 명령어로 트레이스 데이터를 터미널로 가져옵니다.

# 방금 실행한 트레이스 즉시 확인
langsmith-fetch traces --project-uuid <your-uuid> --format json

# 최근 30분 내 트레이스만
langsmith-fetch traces --project-uuid <your-uuid> --last-n-minutes 30

# 50개 스레드를 파일로 저장
langsmith-fetch threads ./my-data --limit 50

특히 코딩 에이전트와 함께 쓰면 강력합니다. Claude Code에게 “langsmith-fetch로 최근 트레이스 가져와서 왜 실패했는지 분석해줘”라고 하면, 코딩 에이전트가 전체 실행 데이터를 읽고 문제를 찾아줍니다. 복사-붙여넣기 없이 자동으로요.

왜 MCP가 아니라 CLI인가?

LangChain은 이 도구를 MCP(Model Context Protocol) 서버가 아닌 CLI로 만들었습니다. 이유는 명확합니다. MCP는 특정 도구 안에서만 작동하지만, CLI는 어디든 쓸 수 있거든요.

터미널에서 직접 확인하고 싶을 때도, jq 같은 유닉스 도구와 조합하고 싶을 때도, 파일로 저장해서 나중에 분석하고 싶을 때도, 코딩 에이전트에게 넘겨주고 싶을 때도 CLI 하나면 됩니다. 더 유연하고 조합 가능하죠.

Deep Agents 시대의 필수 도구

복잡한 AI 에이전트를 만들수록 디버깅은 더 어려워집니다. LangSmith의 Polly는 UI에서 AI의 도움을 받아 문제를 찾고, LangSmith Fetch는 터미널 중심 워크플로우를 위한 직접적인 접근을 제공합니다. 어떤 방식을 선호하든 선택지가 생긴 셈이죠.

AI가 AI를 디버깅한다는 건 얼핏 이상하게 들릴 수 있지만, 생각해보면 당연한 흐름입니다. 에이전트의 실행 로그는 사람이 읽기엔 너무 방대하니까요. 도구의 복잡도가 올라갈수록, 그 도구를 이해하는 도구도 함께 진화해야 합니다.

참고자료:

Introducing Polly: Your AI Agent Engineer – LangChain Blog
LangSmith Polly 공식 문서
LangSmith Fetch GitHub 저장소

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

Join the conversation on Bluesky

AI Sparkup

AI 에이전트 디버깅을 AI가 돕는다: LangSmith의 Polly와 CLI 도구

Deep Agents는 왜 디버깅이 어려울까?

Polly: AI가 AI를 디버깅한다

LangSmith Fetch: 터미널에서 바로 디버깅

왜 MCP가 아니라 CLI인가?

Deep Agents 시대의 필수 도구

AI Sparkup 구독하기

Comments

Comments

답글 남기기 응답 취소

More posts

GitHub Copilot SDK, Agent 개발을 코드에서 의도로 바꾸다

LiteRT, 온디바이스 AI의 새로운 표준

Gemini 3 Flash, 이미지를 확대하고 조작하며 탐색하는 Agentic Vision 공개

Moltbot 돌리려고 Mac mini 사는 대신, Cloudflare에서 돌리는 방법