dspy의 실무 가치는 “프롬프트를 코드처럼 다룬다”는 말보다, 평가 결과를 다음 프롬프트와 모듈 개선으로 자동 연결할 수 있다는 데 있다. Dropbox Dash 사례는 에이전트 평가를 품질 개선 루프로 바꾸는 패턴을 보여준다.
핵심 패턴
- 실제 사용자 질문과 응답을 모아 평가 세트를 만든다.
- LLM judge를 바로 믿지 않고 인간 라벨로 보정한다.
- 평가 기준을 DSPy metric으로 구조화한다.
- Optimizer가 프롬프트와 예시를 조정하게 한다.
- 개선된 응답 품질을 다시 오프라인·온라인 평가로 확인한다.
왜 중요한가
많은 팀은 eval을 대시보드로만 운영한다. 점수는 보지만 다음 프롬프트가 어떻게 바뀌어야 하는지는 사람이 회의로 결정한다. DSPy는 이 간극을 줄인다. Signature와 Module로 LLM 호출을 구조화해 두면, 평가 데이터가 프롬프트 개선 입력이 된다.
적용할 때의 주의점
LLM judge는 편향과 불안정성이 있다. 인간 라벨이 적어도 일부 필요하고, judge prompt도 버전 관리해야 한다. 또한 개선된 프롬프트가 특정 평가 세트에 과적합하지 않는지 별도 holdout으로 확인해야 한다.
관련 문서
- dspy — 프롬프트가 아니라 프로그램으로 LLM 시스템을 최적화하는 프레임워크
- ai-agent-evaluation — AI 에이전트 평가 개요
- prompt-tracking — 프롬프트 모니터링 전략
참고 자료
- How we used DSPy to turn AI evaluations into better responses in Dash chat — Dropbox Tech Blog (2026-06-24)