AI 에이전트에게 기억을 더 많이 줄수록 성능이 좋아질 것 같지만, 실제로는 정반대 현상이 벌어집니다. 과거 대화 기록이 쌓일수록 에이전트는 지금 이 순간 무엇이 중요한지 판단하는 데 더 오래 걸리고, 더 자주 엉뚱한 정보에 발목이 잡힙니다. Microsoft Research가 이 역설을 정면으로 파고든 연구를 공개했습니다.

Microsoft Research가 AI 에이전트의 장기 메모리 설계를 재검토한 연구 PlugMem을 발표했습니다. 기존 메모리 시스템이 과거 상호작용을 ‘텍스트 덩어리’로 저장하는 방식에서 벗어나, 인지과학의 원리를 적용해 구조화된 지식 단위로 변환하는 플러그앤플레이형 메모리 모듈입니다. 3가지 서로 다른 벤치마크에서 더 적은 토큰을 사용하면서 기존 방식보다 일관되게 높은 성능을 기록했습니다.
출처: From Raw Interaction to Reusable Knowledge: Rethinking Memory for AI Agents – Microsoft Research
왜 기억이 많을수록 판단이 느려질까
현재 대부분의 AI 에이전트 메모리 시스템은 과거 상호작용을 있는 그대로 저장합니다. 대화 로그, 방문한 웹페이지, 처리한 문서 등이 쌓이면 에이전트는 현재 작업과 관련된 정보를 찾기 위해 점점 더 큰 기록 더미를 뒤져야 합니다. 유용한 경험과 관계없는 잡음이 뒤섞인 채로요.
이 문제는 단순히 처리 속도의 문제가 아닙니다. LLM 에이전트의 컨텍스트 윈도우는 한정되어 있는데, 긴 원시 기록을 그대로 집어넣으면 정작 판단에 필요한 정보가 밀려납니다. 더 많은 메모리가 오히려 더 낮은 정확도로 이어지는 구조적 문제입니다.
PlugMem이 다르게 접근하는 방식
PlugMem은 인지과학의 기억 분류에서 아이디어를 가져왔습니다. 사람이 경험을 기억하는 것과, 그 경험에서 사실을 추출하는 것, 그리고 무언가를 수행하는 방법을 아는 것은 서로 다른 방식으로 작동합니다. 과거 사건의 기록은 맥락을 제공하지만, 실제 결정에 활용되는 것은 그 사건에서 추출된 ‘사실’과 ‘기술’입니다.
PlugMem은 이 원리를 에이전트 메모리에 적용합니다. 원시 상호작용 기록이 들어오면, 이를 두 종류의 지식 단위로 변환해 구조화된 메모리 그래프에 저장합니다. 하나는 명제적 지식(propositional knowledge), 즉 사실입니다. 다른 하나는 처방적 지식(prescriptive knowledge), 즉 특정 상황에서 어떻게 행동해야 하는지에 대한 재사용 가능한 기술입니다.
검색 단계에서는 긴 텍스트 단락 대신 현재 작업과 정렬된 지식 단위만 불러옵니다. 고수준 개념과 추론된 의도가 라우팅 신호로 작동해, 가장 관련성 높은 정보만 선별됩니다. 그리고 에이전트의 컨텍스트 윈도우에 전달되기 전에 추가로 압축되어 결정에 직접 도움이 되는 형태로 정제됩니다.
범용 메모리 하나로 세 가지 과제를 동시에
기존 AI 메모리 시스템들은 대개 하나의 작업 유형에 최적화되어 있습니다. 대화 메모리는 대화에, 사실 검색 시스템은 조회에, 웹 에이전트 메모리는 페이지 탐색에 맞춰져 있죠. 각각의 영역에서는 잘 작동하지만, 다른 맥락으로 옮기면 대부분 재설계가 필요합니다.
PlugMem은 수정 없이 어떤 에이전트에도 붙일 수 있는 범용 메모리 레이어를 목표로 설계되었습니다. 이를 검증하기 위해 연구팀은 동일한 메모리 모듈을 성격이 전혀 다른 세 가지 벤치마크에 그대로 적용했습니다. 긴 멀티턴 대화에서 질문에 답하는 과제, 여러 위키피디아 문서에 걸쳐 분산된 사실을 찾는 과제, 그리고 웹 탐색 중 결정을 내리는 과제입니다.
결과는 세 벤치마크 모두에서 일관됐습니다. PlugMem은 범용 검색 방식과 작업별 특화 메모리 설계 양쪽을 모두 앞섰고, 에이전트가 사용하는 메모리 토큰 수는 오히려 줄었습니다. 연구팀이 ‘유용성 대비 컨텍스트 소비량’이라는 새 지표로 측정한 결과, PlugMem은 더 적은 컨텍스트로 더 많은 결정 관련 정보를 공급했습니다.
왜 지금 이 연구가 주목받는가
AI 에이전트가 단순 질의응답을 넘어 장시간의 복잡한 작업을 수행하는 방향으로 발전하면서, 메모리 설계는 점점 더 중요한 문제가 되고 있습니다. 한 작업에서 배운 것을 다음 작업에 활용하려면, 경험의 기록이 아니라 경험에서 추출된 지식이 필요합니다.
PlugMem이 제안하는 ‘지식 중심 메모리’는 이 방향으로의 한 걸음입니다. 특히 범용 메모리 레이어 위에 작업별 기법을 추가로 얹을 수 있다는 점은 실용적인 가능성을 열어줍니다. 코드와 실험 결과는 GitHub에 공개되어 있습니다.
논문은 세 벤치마크의 상세 결과와 정보 이론 기반 분석도 포함하고 있으니, 직접 확인해 보시는 걸 추천합니다.
참고자료: PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents – Microsoft Research

답글 남기기