ChatGPT도 건망증이 있다? AI가 대화 중 정보를 잃어버리는 이유와 해결법

ChatGPT나 Claude와 대화하다가 이런 경험을 해보신 적 있으신가요? 처음엔 잘 답변하던 AI가 갑자기 앞서 말했던 내용을 잊어버리는 것처럼 행동하거나, 엉뚱한 답변을 하기 시작하는 경험 말입니다. “분명히 방금 전에 얘기했는데 왜 다시 물어보지?”라고 생각해보신 적이 있다면, 이제 그 이유를 과학적으로 설명할 수 있게 되었습니다.

Microsoft와 Salesforce 연구진이 최근 발표한 연구에 따르면, 현재 우리가 사용하는 거의 모든 대형 언어 모델(LLM)들이 다중 턴 대화에서 놀라울 정도로 성능이 저하된다는 사실이 밝혀졌습니다. 그것도 평균 40%나 되는 큰 폭으로 말입니다.

충격적인 발견: 40% 성능 저하

연구진은 GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Pro 등 현재 최고 성능을 자랑하는 AI 모델 15개를 대상으로 대규모 실험을 진행했습니다. 20만 건이 넘는 모의 대화를 통해 단일 프롬프트로 모든 정보를 한 번에 제공했을 때와 여러 차례에 걸쳐 정보를 나누어 제공했을 때의 성능을 비교했습니다.

결과는 충격적이었습니다. 실험에 참여한 모든 모델이 다중 턴 대화에서 평균 39%의 성능 저하를 보였습니다. 이는 실험실에서 완벽하게 설계된 단일 프롬프트에서는 90% 이상의 정확도를 보이던 모델들이, 실제 사용자들이 경험하는 대화 환경에서는 65% 정도의 성능만 발휘한다는 의미입니다.

더욱 놀라운 것은 이런 현상이 모델 크기나 성능과 관계없이 나타난다는 점입니다. 80억 개 파라미터를 가진 작은 모델부터 수천억 개 파라미터를 가진 거대 모델까지, 그리고 추론 능력이 강화된 o3이나 Deepseek-R1 같은 최신 모델까지 모두 비슷한 수준의 성능 저하를 보였습니다.

어떻게 이런 문제를 발견했을까?

연구진은 기존의 단일 턴 벤치마크 문제들을 “샤딩(sharding)”이라는 과정을 통해 여러 개의 작은 조각으로 나누었습니다. 예를 들어, 원래 문제가 다음과 같았다면:

원본 문제:
“Jay는 여동생과 눈싸움을 준비하기 위해 눈덩이를 만들고 있습니다. 그는 시간당 20개의 눈덩이를 만들 수 있지만, 15분마다 2개씩 녹습니다. 60개의 눈덩이를 만들려면 얼마나 걸릴까요?”

샤딩된 문제:

1단계: “Jay가 눈싸움 준비를 완료하려면 얼마나 걸릴까요?”
2단계: “그는 여동생과 눈싸움을 준비하고 있어요.”
3단계: “시간당 20개의 눈덩이를 만들 수 있어요.”
4단계: “총 60개를 만들려고 해요.”
5단계: “문제는 15분마다 2개씩 녹는다는 거예요.”

이렇게 정보를 단계별로 제공하는 방식은 실제 사용자들이 AI와 대화하는 방식과 매우 유사합니다. 우리는 보통 모든 조건을 한 번에 완벽하게 설명하지 않고, 대화를 통해 점진적으로 요구사항을 명확히 해나가기 때문입니다.

AI가 길을 잃는 4가지 이유

연구진은 AI 모델들이 다중 턴 대화에서 실패하는 구체적인 원인을 분석했습니다.

1. 성급한 답변 시도

AI는 충분한 정보를 받기 전에 성급하게 최종 답안을 제시하려고 합니다. 처음 20% 구간에서 답변을 시도한 모델들의 정확도는 30.9%에 불과했지만, 마지막 20% 구간까지 기다린 모델들은 64.4%의 정확도를 보였습니다. 즉, 조급함이 정확도를 크게 떨어뜨리는 주요 원인이었습니다.

2. 잘못된 가정의 누적

AI는 초기 대화에서 잘못된 가정을 만들고, 새로운 정보가 주어져도 이를 수정하지 못합니다. 마치 잘못된 길로 들어선 후 계속 그 길만 고집하는 것과 같습니다. 더 심각한 것은 최종 답변이 점점 길어지면서 더 많은 오류를 포함하게 된다는 점입니다.

3. 중간 정보 무시 현상

AI는 대화의 첫 번째와 마지막 정보에만 집중하고 중간에 제공된 정보를 무시하는 경향을 보입니다. 이는 긴 문맥에서 나타나는 “중간 실명” 현상과 유사한 문제입니다. 중간 구간 문서에 대한 인용률이 20% 이하로 떨어지는 것이 이를 보여줍니다.

4. 과도한 설명의 역효과

놀랍게도 더 긴 답변이 항상 더 좋은 것은 아닙니다. 6개 작업 중 5개에서 가장 짧은 답변이 가장 긴 답변보다 10-50% 더 정확했습니다. 장황한 답변은 더 많은 가정을 포함하게 되어 오히려 정확도를 떨어뜨리는 결과를 낳습니다.

현실적인 해결책

이 문제를 완전히 해결할 수는 없지만, AI를 더 효과적으로 사용할 수 있는 몇 가지 방법이 있습니다.

개발자를 위한 해결책

연구진은 “Recap”과 “Snowball”이라는 두 가지 에이전트 기반 접근법을 테스트했습니다. Recap은 대화 마지막에 모든 정보를 요약해 다시 제시하는 방법이고, Snowball은 매 턴마다 이전 정보를 반복하는 방법입니다.

결과적으로 이런 방법들이 어느 정도 도움은 되지만(15-20% 개선), 여전히 단일 프롬프트 성능에는 미치지 못했습니다. 이는 현재의 에이전트 프레임워크만으로는 한계가 있다는 것을 의미합니다.

사용자를 위한 실용적 조언

연구진은 AI 사용자들에게 두 가지 구체적인 권장사항을 제시했습니다.

1. 시간이 허락한다면, 다시 시도하세요
대화가 원하는 방향으로 흘러가지 않는다면, 같은 내용으로 새로운 대화를 시작하는 것이 기존 대화를 계속하는 것보다 훨씬 효과적입니다. 현재의 AI는 대화 중에 길을 잃으면 스스로 회복하기 어렵기 때문입니다.

2. 재시도 전에 정보를 통합하세요
AI가 혼란스러워한다면 “지금까지 제가 말한 모든 내용을 정리해 주세요”라고 요청한 후, 그 답변을 가지고 새로운 대화를 시작하는 것이 좋습니다. 이는 수동으로 정보를 정리할 필요 없이 AI 도구를 최대한 활용하는 방법입니다.

실제로 AI 기반 코딩 도구인 Cursor의 초기 사용자들 사이에서는 “가능한 한 자주 새로운 대화를 시작하라”는 조언이 널리 퍼져 있습니다. 이는 이번 연구 결과와 정확히 일치하는 경험적 지혜입니다.

온도 설정으로 해결될까?

AI의 무작위성을 줄이기 위해 온도(temperature) 설정을 0에 가깝게 낮추면 어떨까요? 연구진은 이 점도 테스트해봤지만, 결과는 실망스러웠습니다.

단일 턴 대화에서는 온도를 낮추면 신뢰성이 50-80% 향상되었지만, 다중 턴 대화에서는 거의 개선 효과가 없었습니다. 온도를 0.0으로 설정해도 여전히 30% 정도의 불안정성이 남아있었습니다. 이는 다중 턴 대화에서는 초기 실수가 연쇄적으로 더 큰 오류를 만들어내기 때문입니다.

AI 업계에 던지는 메시지

이 연구는 AI 업계에 중요한 메시지를 전달합니다. 지금까지 AI 개발은 주로 “능력(aptitude)” 향상에 집중해왔습니다. 수학 올림피아드 문제를 풀거나 박사 수준의 기술 문제를 해결하는 능력 말입니다.

하지만 연구진은 이제 “신뢰성(reliability)”에도 똑같이 집중해야 한다고 주장합니다. 아무리 뛰어난 능력을 가진 AI라도 실제 사용 환경에서 일관성 있는 성능을 보여주지 못한다면, 사용자들은 결국 실망하고 떠날 수밖에 없기 때문입니다.

연구진은 미래의 AI 모델이 다음 세 가지 조건을 만족해야 한다고 제안했습니다:

단일 턴과 다중 턴에서 비슷한 능력을 보여야 함
다중 턴 설정에서 15% 미만의 불안정성을 보여야 함
기본 온도 설정(1.0)에서도 안정적인 성능을 보여야 함

앞으로의 전망

이 연구는 현재 AI 기술의 한계를 명확히 보여주지만, 동시에 개선 방향도 제시합니다. 가장 중요한 깨달음은 현재의 벤치마크 테스트가 실제 사용 환경을 제대로 반영하지 못한다는 점입니다.

대부분의 AI 성능 테스트는 완벽하게 설계된 단일 프롬프트를 사용하지만, 실제 사용자들은 불완전하고 점진적인 대화를 통해 AI와 소통합니다. 이런 간극을 줄이는 것이 앞으로 AI 개발의 핵심 과제가 될 것입니다.

또한 이 연구는 AI를 단순히 “똑똑한 도구”가 아닌 “신뢰할 수 있는 파트너”로 만들기 위한 중요한 첫걸음이기도 합니다. 사용자들이 AI와 자연스럽고 편안하게 대화할 수 있는 날이 오려면, 이런 기초적인 신뢰성 문제부터 해결해야 하기 때문입니다.

현재 우리가 사용하는 AI는 여전히 완벽하지 않습니다. 하지만 이런 한계를 정확히 이해하고 적절히 대응한다면, AI를 더욱 효과적으로 활용할 수 있을 것입니다. 그리고 언젠가는 진정으로 자연스러운 대화가 가능한 AI를 만날 수 있을 것입니다.

참고자료:

AI Sparkup

ChatGPT도 건망증이 있다? AI가 대화 중 정보를 잃어버리는 이유와 해결법

충격적인 발견: 40% 성능 저하

어떻게 이런 문제를 발견했을까?

AI가 길을 잃는 4가지 이유

1. 성급한 답변 시도

2. 잘못된 가정의 누적

3. 중간 정보 무시 현상

4. 과도한 설명의 역효과

현실적인 해결책

개발자를 위한 해결책

사용자를 위한 실용적 조언

온도 설정으로 해결될까?

AI 업계에 던지는 메시지

앞으로의 전망

이것이 좋아요:

Comments

응답 취소

More posts

RAG 시스템 성능을 한 단계 끌어올리는 재순위 지정 모델(Reranker) 완벽 가이드

Agentic LLM이란 무엇이고 기존의 LLM과는 어떻게 다른가

AI가 맥킨지를 위협하는 방법: 5조 달러 서비스 업계의 AI 혁신 전략

AI 인재 쟁탈전의 새로운 국면: OpenAI vs Meta, 거대한 보상의 전쟁