Agent RL Training Frameworks는 LLM 에이전트를 단일 응답이 아니라 도구 사용, 환경 상호작용, 다단계 trajectory 단위로 개선하기 위한 오픈소스 도구군을 정리한 주제다. 최근 GRPO와 agentic RL이 확산되면서, 일반 RLHF 스택과 에이전트 전용 학습 하네스를 구분할 필요가 커졌다.
대표 선택지
| 프레임워크 | 강점 | 맞는 상황 |
|---|---|---|
| OpenPipe ART | agent-first GRPO 루프 | 앱 태스크와 reward를 직접 정의하고 빠르게 실험할 때 |
| verl-agent | veRL 기반 장기 에이전트 학습 | 웹 탐색, GUI, 검색, 도구 사용처럼 액션 수가 많은 작업 |
| Agent Lightning | 기존 에이전트 스택 재사용 | LangChain, AutoGen, Agents SDK 기반 에이전트를 다시 쓰지 않고 RL 적용 |
| Unsloth | 로컬 파인튜닝과 GRPO | 소비자 GPU에서 모델 학습·export까지 처리 |
| OpenRLHF | 분산 RLHF·agent RL | Ray, vLLM, DeepSpeed 기반 대규모 학습 |
| SkyRL | 학습·추론·환경·평가 통합 | end-to-end 연구 스택이 필요할 때 |
| NVIDIA Polar | rollout orchestration | 기존 하네스를 RL-ready하게 만들 때 |
| Agent-R1, RAGEN, Marti | step-level, trajectory-level, multi-agent RL | 연구용 세부 실험 |
프레임워크를 고르는 기준
에이전트 RL에서는 알고리즘 이름보다 환경과 평가 루프가 더 중요하다. reward가 자동으로 채점되는가, 도구 호출 로그를 trajectory로 안정적으로 저장하는가, 실패 사례를 재현할 수 있는가, 기존 에이전트 코드를 얼마나 바꿔야 하는가를 먼저 봐야 한다.
일반 챗봇 튜닝이면 RLHF 스택으로 충분할 수 있다. 하지만 검색, 코드 실행, 브라우저 조작, 멀티턴 계획처럼 action layer가 핵심인 작업은 에이전트 전용 rollout과 grader가 필요하다.
관련 문서
- openenv — 강화학습 환경과 에이전트 평가 루프를 표준화하는 프로토콜
- ai-agent-evaluation-tips-roadmap — reasoning layer와 action layer를 나눠 측정하기
- openskill — 정답 데이터 없이 에이전트 스킬과 검증 신호를 스스로 만드는 자기진화 프레임워크
참고 자료
- Agent RL Training Frameworks: 10 Open-source Tools to Know — Turing Post (2026-06)
- Agentic RL: Frameworks and Best Practices — Cameron R. Wolfe (2026-06)