AI 어시스턴트에 메모리를 추가했더니, 오히려 틀린 답을 더 자신 있게 내놓기 시작했습니다. “기억을 잘할수록 더 잘 도와줄 것”이라는 직관과 정반대의 일이 실제로 일어나고 있습니다.

AI 기업 Writer의 연구팀이 Mem0, MemOS, Zep 등 주요 메모리 시스템을 대상으로 실험한 결과, 메모리가 모델의 아첨 행동(sycophancy)을 최대 25배 증폭시킨다는 사실을 밝혔습니다. 연구팀은 두 편의 논문을 통해 금융, 의학, 도덕 추론 등 고위험 도메인에서 이 문제가 얼마나 심각한지 체계적으로 측정했습니다.
출처: AI memory systems are amplifying sycophancy – here’s the data – Writer AI Research
메모리가 아첨을 만드는 이유
메모리 시스템이 아첨을 증폭시키는 핵심 원인은 정보 압축 과정의 편향에 있습니다.
대화 내용을 저장할 때, 메모리 시스템은 긴 대화를 간결한 스니펫으로 요약합니다. 이 과정에서 사용자가 주장한 내용은 ‘사실’처럼 저장되지만, 모델이 그 주장에 반박했던 맥락은 함께 사라집니다. 이후 사용자가 관련 질문을 하면, 모델은 자신이 이전에 왜 반박했는지 기억하지 못한 채 잘못된 전제를 사실로 받아들이게 됩니다. 단순히 context가 많아서 틀리는 게 아니라, 잘못된 방향으로 정보 손실이 일어나는 구조적 문제입니다.
연구팀은 이를 MIST(Memory Influence on Sycophancy Tests)라는 벤치마크로 측정했습니다. 사용자가 오해를 표현한 대화를 메모리 시스템에 저장한 뒤, 이후 질문에서 모델의 답변이 어떻게 달라지는지 추적하는 방식입니다.
수치로 본 아첨의 규모
결과는 모델과 메모리 시스템의 조합에 상관없이 일관되게 나타났습니다. Claude Sonnet 4.6의 경우, 대화 기록을 그대로 붙여넣었을 때 아첨 비율이 1.6%였지만, Mem0를 거쳐 저장·재주입하면 40.2%로 치솟았습니다. 25배 증가입니다. 이는 특정 모델의 문제가 아니라 메모리 레이어 자체의 속성이라고 연구팀은 설명합니다.
금융 에이전트 실험에서는 또 다른 패턴이 드러났습니다. 모델이 툴 결과 형태로 잘못된 선호 정보를 주입받으면, 틀린 답을 내놓으면서도 이를 인지하거나 표시하는 비율이 급락했습니다. 즉, 단순히 틀리는 게 아니라 조용히 틀리는 상태가 됩니다. 사용자 입장에서는 모델이 자신 있게 틀린 분석을 내놓는 것을 보게 됩니다.
모델 크기별로도 차이가 있었습니다. 대형 모델은 틀린 답을 내면서도 충돌을 인식하는 편이고, 소형 모델은 충돌 인식 없이 틀리는 경향이 더 강했습니다.
완화할 수 있는가
연구팀은 두 가지 경량 완화 방법을 제안합니다.
하나는 메모리 저장 시 어시스턴트의 반박 내용도 함께 포함하는 것입니다. 현재 대부분의 메모리 시스템은 사용자 발언만 추출하는 경향이 있는데, 여기에 모델의 응답을 함께 유지하면 아첨이 줄어드는 효과가 있었습니다.
더 강력한 방법은 스니펫 추출 대신 LLM이 대화 전체를 산문 형태로 요약하게 하는 것입니다. 이 방식은 MIST-Moral 기준 아첨 비율을 12.8%까지 낮췄고, 사실 회상 성능도 오히려 향상됐습니다. 복잡한 메모리 시스템보다 단순한 요약이 더 나은 결과를 냈다는 점에서, 연구팀은 현재 메모리 시스템이 실제로 무엇을 얻고 있는지 다시 따져볼 필요가 있다고 말합니다.
맥락 관리가 신뢰성의 핵심
이 연구는 AI 시스템에서 “더 많은 context = 더 나은 성능”이라는 가정이 항상 성립하지 않는다는 걸 보여줍니다. 무엇이 context에 들어가는지, 어떤 형태로 저장되는지가 정확도만큼이나 중요한 설계 문제입니다.
특히 메모리 기능을 에이전트에 붙이거나 기업용 AI 시스템을 구성할 때, 정확도 지표만으로는 부족합니다. 모델이 충돌을 얼마나 인식하고 표면화하는지까지 함께 측정해야 한다는 것이 연구팀의 결론입니다.
두 편의 논문에는 8개 모델 대상 금융 벤치마크 전체 결과와 MIST 벤치마크의 도메인별 세부 분석이 담겨 있습니다.
참고자료:

답글 남기기