delta-mem – LLM 어텐션에 결합되는 초소형 온라인 메모리

문제: 컨텍스트 확장만으로는 부족하다
구조
왜 중요한가
실무적 해석
관련 문서
참고 자료

delta-mem은 대형 언어 모델의 백본을 교체하거나 전체 파인튜닝하지 않고, 작은 온라인 메모리 상태를 어텐션 계산에 결합해 과거 정보를 재사용하게 만드는 연구다. 논문 제목은 “$\delta$-mem: Efficient Online Memory for Large Language Models”이며, 장기 비서와 에이전트 시스템에서 필요한 누적 기억 문제를 다룬다.

문제: 컨텍스트 확장만으로는 부족하다

긴 컨텍스트 창은 과거 정보를 많이 넣을 수 있게 해주지만 비용이 크고, 모델이 실제로 그 정보를 잘 활용한다는 보장도 없다. 에이전트가 장기간 사용자 선호, 이전 작업, 대화 이력을 활용하려면 단순히 프롬프트를 길게 만드는 것보다 더 압축된 메모리 상태가 필요하다.

delta-mem은 이 문제를 온라인 연상 메모리(associative memory) 로 접근한다.

구조

delta-mem은 frozen full-attention backbone 위에 작은 상태 행렬을 추가한다. 이 행렬은 과거 정보를 delta-rule learning으로 계속 갱신하고, 생성 중 백본 어텐션 계산에 low-rank correction을 제공한다.

요소	설명
frozen backbone	기존 LLM은 그대로 둔다
online memory state	고정 크기 상태 행렬에 과거 정보를 압축한다
delta-rule update	입력을 처리하며 메모리를 온라인으로 갱신한다
attention correction	메모리 readout이 어텐션 계산을 보정한다

논문은 8×8 온라인 메모리 상태만으로도 frozen backbone 대비 평균 1.10배, strongest non-delta-mem 메모리 baseline 대비 1.15배 점수를 보고한다. 메모리 의존도가 높은 MemoryAgentBench에서는 1.31배, LoCoMo에서는 1.20배 개선을 보고한다.

왜 중요한가

많은 에이전트 메모리 시스템은 외부 벡터 DB, 요약 로그, 지식 그래프를 모델 앞단 검색 계층으로 붙인다. delta-mem은 그보다 모델 내부 계산에 더 가까운 위치에서 메모리를 결합한다. 외부 검색 없이도 어텐션 자체가 과거 정보의 압축 상태를 참고하도록 만드는 방향이다.

이 접근은 agentic-memory의 “외부 메모리”와 다르다. delta-mem은 제품형 메모리 DB가 아니라, 모델 아키텍처 수준의 온라인 상태다. 둘은 경쟁이라기보다 계층이 다르다.

실무적 해석

delta-mem을 오늘 당장 애플리케이션에 붙일 수 있는 라이브러리로 보기는 어렵다. 하지만 장기 에이전트 메모리 연구에서는 중요한 신호다.

긴 컨텍스트가 유일한 해법은 아니다.
작은 상태도 어텐션과 잘 결합되면 메모리 벤치마크에서 효과를 낼 수 있다.
모델 밖 검색 계층과 모델 안 온라인 상태가 함께 쓰이는 하이브리드 구조가 가능하다.

참고 자료

$\delta$-mem: Efficient Online Memory for Large Language Models — arXiv (2026-05-19)

Like?

AI Sparkup

delta-mem – LLM 어텐션에 결합되는 초소형 온라인 메모리

문제: 컨텍스트 확장만으로는 부족하다

구조

왜 중요한가

실무적 해석

관련 문서

참고 자료

AI Sparkup 구독하기