웹 브라우저를 조작하는 AI 에이전트가 어제 실패한 방식으로 오늘도 똑같이 실패합니다. 경험이 쌓여도 달라지는 게 없습니다. 기억이 없기 때문입니다.

Google Research 팀이 ICLR에 발표한 논문 “ReasoningBank“는 AI 에이전트가 경험에서 실제로 배울 수 있는 메모리 프레임워크를 제안합니다. 핵심은 성공한 경험뿐 아니라 실패한 경험까지 체계적으로 학습에 활용한다는 점입니다.
출처:
- ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory – arxiv (ICLR 2026)
- ReasoningBank: Enabling agents to learn from experience – Google Research Blog
기존 메모리 방식의 두 가지 한계
지금까지 에이전트 메모리 연구는 크게 두 방향이었습니다.
첫 번째는 모든 행동을 빠짐없이 기록하는 방식(Trajectory Memory)입니다. 기록 자체는 완벽하지만, 저장된 내용이 너무 구체적이고 장황해서 다른 상황에 적용하기 어렵습니다. “3번 버튼을 클릭했다”는 기록은 비슷한 화면이 나와도 쓸모가 없습니다.
두 번째는 성공한 경험만 정리해두는 방식(Workflow Memory)입니다. 깔끔하게 정리된 성공 패턴은 유용하지만, 에이전트가 가장 많이 배울 수 있는 원천 — 실패 — 을 통째로 버립니다.
ReasoningBank: 성공과 실패를 모두 전략으로 변환
ReasoningBank는 이 두 한계를 동시에 해결합니다. 단순히 “무엇을 했는가”를 저장하는 대신, “왜 그 전략이 효과적이었는가(또는 아니었는가)”를 추출해 고수준 패턴으로 저장합니다.
메모리 하나는 세 가지로 구성됩니다. 핵심 전략을 요약한 제목, 간략한 설명, 그리고 과거 경험에서 증류된 실제 추론 흐름이 담긴 내용입니다.
작동 방식은 이렇습니다.
- 에이전트가 새 작업을 받으면 ReasoningBank에서 관련 메모리를 검색해 맥락에 포함
- 작업 수행 후 LLM이 결과를 자체 평가(성공/실패 판단)
- 해당 경험에서 전략적 교훈을 추출해 새 메모리로 저장
특히 실패 경험 처리 방식이 인상적입니다. “더 많이 로드하기 버튼을 클릭하라”는 절차적 규칙 대신, 과거 실패에서 “무한 스크롤 함정을 피하려면 먼저 현재 페이지 식별자를 확인하라”는 예방적 판단 기준을 만들어냅니다. 실수를 전략적 가드레일로 전환하는 셈입니다.
더 많이 시도할수록 더 똑똑해지는 MaTTS
연구팀은 여기서 한 걸음 더 나아가 MaTTS(Memory-aware Test-Time Scaling)를 제안합니다. 테스트 타임에 더 많은 컴퓨팅을 쓸수록 성능이 오른다는 기존 스케일링 개념을 메모리와 연결한 아이디어입니다.
MaTTS는 두 가지 방식으로 작동합니다.
- 병렬 스케일링: 같은 작업을 여러 방식으로 동시에 시도. 성공한 경로와 실패한 경로를 나란히 비교해 더 강건한 전략을 추출
- 순차 스케일링: 한 번의 시도 안에서 추론을 반복 정제. 중간 과정의 시행착오 자체가 고품질 메모리로 기록
결과적으로 메모리가 좋아질수록 탐색이 더 효율적으로 되고, 효율적인 탐색은 다시 더 풍부한 학습 신호를 만들어냅니다. 두 요소가 서로를 강화하는 구조입니다.
결과: 전략적 성숙의 출현
WebArena(웹 브라우징)와 SWE-Bench-Verified(소프트웨어 엔지니어링) 벤치마크에서 Gemini-2.5-Flash를 기반으로 테스트한 결과, ReasoningBank는 메모리 없는 기준 대비 WebArena에서 8.3%, SWE-Bench-Verified에서 4.6% 높은 성공률을 보였습니다. 효율성도 함께 올랐는데, SWE-Bench에서 작업당 평균 3단계를 줄였습니다. MaTTS를 더하면 WebArena 기준 성공률이 3% 추가 상승합니다.
숫자보다 흥미로운 건 따로 있습니다. 연구팀은 에이전트가 경험을 쌓을수록 메모리 자체가 진화하는 현상을 관찰했습니다. 초기에는 “페이지 링크를 찾아라” 수준의 단순 절차 목록에 불과했던 메모리가, 더 많은 경험이 쌓이면서 “현재 페이지 필터와 작업을 교차 검토해 데이터셋이 너무 일찍 페이지네이션되지 않도록 하라”는 복합적·예방적 논리로 스스로 발전했습니다.
이를 연구팀은 “전략적 성숙(strategic maturity)”이라고 부릅니다. 특정 상황에서의 규칙이 아니라, 더 넓은 맥락에서 작동하는 일반화된 사고방식이 자연스럽게 형성되는 현상입니다.
이번 연구가 제시하는 것은 단순한 성능 개선이 아닙니다. AI 에이전트 스케일링의 새로운 차원 — 파라미터나 데이터를 늘리는 것이 아니라 경험의 질을 높이는 것 — 을 통해 에이전트가 배포 후에도 지속적으로 성장할 수 있다는 가능성입니다.
참고자료: google-research/reasoning-bank – GitHub

답글 남기기