Self-improving agent loop는 에이전트가 작업을 실행한 뒤 결과와 피드백을 저장하고, 다음 실행에서 그 경험을 반영하는 구조다. 단순한 sense -> reason -> act 흐름과 달리 평가·메모리·정책 업데이트가 루프 안에 들어간다.
기본 구조
| 단계 | 역할 |
|---|---|
| 목표 설정 | 사용자의 요구와 성공 기준을 정의 |
| 실행 | 모델이 도구를 호출하고 결과를 만든다 |
| 평가 | 결과 품질, 실패 원인, 비용, 지연 시간을 측정 |
| 메모리 기록 | 성공 패턴과 실패 패턴을 저장 |
| 전략 수정 | 다음 실행의 프롬프트, 도구 선택, 계획 방식을 바꾼다 |
핵심은 “기억”이다. 결과를 저장하지 않는 에이전트는 같은 실수를 반복한다. 저장하더라도 평가 기준이 없으면 무엇을 개선해야 할지 모른다.
전통적 에이전트와의 차이
| 항목 | 전통적 워크플로 | 자기개선 루프 |
|---|---|---|
| 지시 | 고정 프롬프트 중심 | 실행 결과에 따라 업데이트 |
| 메모리 | 작업 종료 후 사라짐 | 외부 상태나 장기 메모리에 저장 |
| 평가 | 사람의 사후 확인 | 루프 안의 자동 평가 포함 |
| 개선 | 개발자가 수동 수정 | 시스템이 후보 개선안을 누적 |
이 구조는 agentic-loops와 가깝지만, 단순 반복보다 “무엇을 배웠는가”를 명시적으로 다룬다는 점이 다르다.
어디에 적합한가
- 리서치 에이전트: 좋은 출처와 나쁜 출처를 구분해 다음 검색 전략 개선
- 데이터 분석 에이전트: 실패한 SQL 패턴과 검증 쿼리 저장
- 고객지원 에이전트: 해결된 티켓의 절차를 스킬로 축적
- 코딩 에이전트: 테스트 실패와 수정 패턴을 프로젝트 메모리에 기록
- 모델 라우터: 작업 유형별 모델 성능을 경험으로 누적
위험과 통제
자기개선 루프는 잘못된 경험도 강화할 수 있다. 따라서 최소한 다음 통제가 필요하다.
- 실패 원인과 성공 기준을 구조화해서 기록한다.
- 자동 메모리 쓰기는 사람이 검토할 수 있게 로그를 남긴다.
- 보안·권한·비용 관련 정책은 모델이 직접 수정하지 못하게 한다.
- 성능 향상은 벤치마크나 회귀 테스트로 확인한다.
- 오래된 경험은 만료하거나 재평가한다.
관련 문서
- agentic-loops — 스스로 피드백을 받아 수정하는 AI 에이전트 루프 설계
- hermes-agent — 학습 루프 내장형 자기 개선 AI 에이전트
- agentic-memory — AI 에이전트의 장기 기억 구조
- agent-as-a-router — 경험 기반으로 코딩 모델을 고르는 라우터
참고 자료
- The Self-Improving Loop in AI Agents — Analytics Vidhya (2026-06-25)