ReasoningBank – 성공·실패 경험에서 추론 전략을 학습하는 에이전트 메모리 프레임워크

문제: 에이전트는 경험에서 배우지 못한다
해결책: 추론 메모리 (ReasoningBank)
메모리 아이템 구조
작동 방식
메모리 인지 테스트타임 스케일링 (MaTTS)
성능 결과
누가 쓰면 좋은가
코드 사용
관련 문서
참고 자료

ReasoningBank는 Google Research가 ICLR 2026에서 발표한 에이전트 메모리 프레임워크다. AI 에이전트가 배포 후에도 자신의 성공과 실패 경험에서 일반화 가능한 추론 전략을 추출하고, 다음 태스크에서 이를 활용해 지속적으로 성능을 높인다. 기존 메모리 방식과 달리 실패 경험을 적극적으로 학습 신호로 삼는 점이 핵심 차별점이다.

문제: 에이전트는 경험에서 배우지 못한다

대형 언어 모델 에이전트는 웹 탐색·소프트웨어 엔지니어링 같은 복잡한 실세계 작업에 점점 많이 투입되고 있다. 그러나 이들은 반복 작업에서도 동일한 전략적 실수를 저지르고, 이전 상호작용에서 얻은 통찰을 다음 태스크에 활용하지 못한다.

기존 에이전트 메모리 방식의 한계:

Synapse (궤적 메모리): 매번 취한 행동을 그대로 저장 → 고수준 전략 패턴 추출 불가
AWM (워크플로 메모리): 성공한 경험만 기록 → 실패에서 얻는 반면교사 신호를 버림

해결책: 추론 메모리 (ReasoningBank)

ReasoningBank는 성공·실패 궤적 모두를 분석해 일반화 가능한 추론 전략을 구조화된 메모리 아이템으로 증류한다.

메모리 아이템 구조

각 메모리 아이템은 세 요소로 구성된다:

요소	내용
Title	핵심 전략을 한 줄로 요약한 식별자
Description	메모리의 배경과 맥락
Content	증류된 추론 단계, 의사결정 근거, 운영 통찰

예를 들어, 초기에는 “더보기 버튼을 클릭하라”처럼 단순 절차 규칙으로 시작하지만, 실패 경험이 쌓이면 “페이지 필터와 태스크를 지속적으로 교차 검증해 데이터셋이 조기에 페이지네이션되지 않았는지 확인하라”처럼 복합적이고 예방적인 논리 구조로 진화한다.

작동 방식

ReasoningBank는 태스크 실행 중 연속적으로 순환하는 세 단계로 동작한다.

1. 검색(Retrieval)
   → 현재 태스크와 관련된 기존 메모리를 ReasoningBank에서 가져와 컨텍스트에 주입

2. 상호작용(Interaction)
   → 에이전트가 환경과 상호작용 후 LLM-as-a-judge로 궤적을 자기 평가

3. 증류(Distillation)
   → 성공 통찰 또는 실패 반성을 새 메모리로 추출해 ReasoningBank에 추가

자기 평가가 완벽할 필요는 없다. 연구 결과 ReasoningBank는 판단 노이즈에 상당히 강건한 것으로 나타났다.

메모리 인지 테스트타임 스케일링 (MaTTS)

ReasoningBank를 기반으로 테스트타임 스케일링(TTS)을 메모리와 연동하는 MaTTS(Memory-aware Test-Time Scaling)를 제안한다.

병렬 스케일링(Parallel Scaling): 동일 쿼리에 대해 여러 궤적을 생성한 후, 성공·실패 궤적을 자기 대조(self-contrast)해 더 강건한 전략을 추출
순차 스케일링(Sequential Scaling): 단일 궤적 내에서 반복 정제하며 중간 단계의 통찰도 고품질 메모리로 포착

MaTTS의 핵심 선순환 구조:

고품질 메모리 → 더 나은 탐색 → 더 풍부한 학습 신호 → 더 스마트한 메모리

성능 결과

Gemini-2.5-Flash 기반으로 WebArena(웹 탐색)와 SWE-Bench-Verified(소프트웨어 엔지니어링) 벤치마크에서 평가했다.

설정	WebArena 성공률 향상	SWE-Bench-V 성공률 향상	SWE-Bench-V 단계 절감
ReasoningBank (스케일링 없음)	+8.3%	+4.6%	-3 steps/태스크
ReasoningBank + MaTTS (k=5)	추가 +3%	—	-0.4 steps

기존 Synapse(궤적 메모리), AWM(워크플로 메모리) 대비 효과성과 효율성 모두 우수하다.

누가 쓰면 좋은가

사용자	사용 사례
에이전트 연구자	경험 기반 자기진화 에이전트 아키텍처 연구
MLOps 엔지니어	배포 후 지속 개선되는 에이전트 시스템 설계
벤치마크 엔지니어	WebArena·SWE-Bench 환경에서 메모리 전략 비교 실험

코드 사용

현재 WebArena(웹 탐색)와 SWE-Bench(소프트웨어 엔지니어링) 두 벤치마크에 대한 코드가 공개돼 있다. GPT-4o, Gemini-2.5, Claude(Vertex AI 경유) 세 모델 패밀리를 지원한다.

git clone https://github.com/google-research/reasoning-bank
pip install -r requirements.txt

# WebArena 실행 예시
bash WebArena/run.sh  # model, output_dir, website, memory_mode 설정 필요

참고 자료

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory — arXiv (2025-09, ICLR 2026)
ReasoningBank: Enabling agents to learn from experience — Google Research Blog (2026-04-21)
google-research/reasoning-bank — GitHub 공식 저장소

Like?

AI Sparkup