AI 에이전트를 만들었는데 성능이 기대에 못 미친다면 어떻게 해야 할까요? 보통은 프롬프트를 다시 쓰거나, 코드 구조를 바꾸거나, 아예 다른 프레임워크로 갈아타야 한다고 생각하죠. Microsoft가 공개한 Agent Lightning은 이런 고민에 새로운 해법을 제시합니다. 기존 에이전트 코드를 거의 그대로 두고도 강화학습으로 성능을 끌어올릴 수 있거든요.

출처: Agent Lightning GitHub Repository – Microsoft
코드 변경 없이 에이전트를 훈련시킨다
Agent Lightning의 핵심 가치는 ‘비침습성’입니다. LangChain으로 만든 에이전트든, AutoGen으로 구축한 멀티 에이전트 시스템이든, 심지어 프레임워크 없이 순수 Python으로 작성한 에이전트든 상관없어요. 기존 코드에 몇 줄의 헬퍼 함수(agl.emit_xxx())만 추가하거나, 자동 추적 기능을 활성화하면 끝입니다.
에이전트가 실행되는 동안 Agent Lightning은 모든 프롬프트, 도구 호출, 보상 신호를 수집해 ‘스팬(span)’이라는 구조화된 데이터로 변환합니다. 이 스팬들은 LightningStore라는 중앙 허브로 모이는데, 여기서 작업(task), 리소스(resource), 추적 데이터(trace)가 동기화되죠.
그 반대편에는 강화학습 알고리즘이 대기하고 있습니다. 알고리즘은 스팬을 읽어서 학습하고, 개선된 프롬프트 템플릿이나 정책 가중치를 LightningStore에 업데이트해요. Trainer는 이 모든 과정을 조율하면서 데이터셋을 러너에게 전달하고, 리소스를 Store와 알고리즘 사이에서 중개하며, 개선사항이 도착하면 추론 엔진을 업데이트합니다.

멀티 에이전트 시스템에서도 선택적 최적화
Agent Lightning의 또 다른 강점은 멀티 에이전트 환경에서 빛을 발합니다. 예를 들어 5개의 에이전트가 협업하는 시스템이 있다면, 성능이 떨어지는 특정 에이전트 1-2개만 골라서 훈련시킬 수 있어요. 나머지는 그대로 두고요. 이는 에이전트별로 역할과 복잡도가 다른 실무 환경에서 특히 유용합니다.
지원하는 알고리즘도 다양합니다. 강화학습(RL)은 기본이고, 자동 프롬프트 최적화(Automatic Prompt Optimization), 지도 학습 기반 파인튜닝(SFT) 등을 선택할 수 있죠. 실제로 Microsoft Research 팀은 SQL 작성 에이전트를 훈련시켜 스스로 오류를 고쳐나가는 자기 교정 능력을 학습시킨 사례도 공개했습니다.
AI 에이전트 개발의 새로운 패러다임
Agent Lightning은 에이전트 개발 방식에 중요한 변화를 제안합니다. 기존에는 에이전트를 만들고 나면 성능 개선이 ‘수동 튜닝’의 영역이었어요. 프롬프트를 여러 번 고쳐보고, 예상치 못한 행동을 디버깅하고, 경험에 의존해 개선하는 식이었죠.
이제는 에이전트를 만든 후 데이터를 수집하고, 알고리즘을 선택해서 훈련시키는 ‘학습 루프’가 표준 프로세스로 자리잡을 수 있습니다. 특히 명확한 목표 함수(예: 정확도, 작업 완료율)가 있는 도메인에서는 이 접근법이 효과적일 거예요.
프로젝트는 arXiv 논문과 함께 공개되었고, vLLM 블로그, Medium 글 등 커뮤니티 반응도 활발합니다. 중국 텐센트의 Youtu-Agent는 Agent Lightning을 기반으로 128 GPU 규모의 훈련을 안정적으로 수행한 사례를 공유하기도 했죠.
참고자료:

답글 남기기