멀티턴 대화에서 LLM 정확도 33% 하락, GPT-5도 예외 없었다

2026-03-04

﹒

AI 인사이트

﹒

2 minutes

AI와 대화를 길게 이어가다 보면 왠지 뒤로 갈수록 답이 엉뚱해지는 느낌, 받아본 적 있지 않으신가요? 기분 탓이 아니었습니다.

사진 출처: The Decoder

Microsoft·Salesforce 연구팀의 Philippe Laban이 이끄는 연구에서, GPT-5를 포함한 최신 프론티어 LLM들도 대화가 여러 턴으로 길어지면 정확도가 평균 33% 하락한다는 결과가 나왔습니다. 이전 세대 모델에서 39%였던 수치가 소폭 개선됐을 뿐, 문제의 본질은 그대로입니다.

출처: Even frontier LLMs from GPT-5 onward lose up to 33% accuracy when you chat too long – The Decoder

실험 방법: 실제 대화를 흉내내다

연구팀은 ‘샤딩(sharding)’이라는 실험 방법을 고안했습니다. 보통 AI 평가는 모든 조건을 한 번에 넘겨주는 방식인데, 현실에서 사람들은 그렇게 대화하지 않죠. 처음엔 대략적인 요청을 하고, 이후 조건을 조금씩 추가하거나 방향을 바꾸는 식으로 대화가 진행됩니다.

샤딩은 바로 이 패턴을 재현합니다. 원래 완전한 지시문을 여러 턴으로 쪼개서 순차적으로 제공하는 거죠. 코드, 데이터베이스, 수학, 요약 등 6가지 과제에 걸쳐 테스트한 결과, 한 번에 모든 정보를 받았을 때 90% 수준이던 정확도가 멀티턴 환경에서 51%까지 떨어졌습니다.

왜 이런 일이 생길까

연구팀이 20만 건 이상의 시뮬레이션 대화를 분석한 결과, 네 가지 패턴이 반복됐습니다.

첫째, 모델이 정보가 다 모이기도 전에 결론부터 내립니다. 아직 조건이 남아있는데 일찍 답을 내버리는 거죠. 둘째, 한번 낸 (틀린) 답에 지나치게 의존합니다. 이후 대화에서 정보가 추가돼도 초기 답을 수정하지 않으려 합니다. 셋째, 대화 중간에 나온 정보를 잘 기억하지 못하고, 넷째, 과도하게 상세한 답변을 생성하면서 정보 공백을 임의로 채워버립니다.

결국 한번 방향을 잘못 잡으면, 모델은 스스로 돌아오지 못한다는 게 연구팀의 핵심 표현입니다.

기술적 해결책은 통하지 않았다

주목할 만한 건 온도(temperature) 값을 낮추거나 지시문 반복 같은 흔한 기술적 조치들이 효과가 없었다는 겁니다. 정확도 하락을 두 요소로 분해해보면, 모델의 기본 능력(aptitude) 저하는 16% 수준에 불과했지만, 비일관성(unreliability)은 무려 112% 증가했습니다. 같은 과제를 여러 번 돌렸을 때 결과가 최대 50%p까지 벌어지기도 했고요.

즉, 최신 모델로 업그레이드해도 이 문제는 해결되지 않습니다. GPT-5 세대 이후 프론티어 모델들도 30~33% 수준의 하락에서 벗어나지 못했습니다.

이 연구가 말하는 것

싱글턴(단일 입력) 환경에서만 테스트해온 기존 AI 평가 방식의 맹점을 지적한다는 점에서 이 연구는 주목할 만합니다. 실제 사용자들은 대화를 통해 요구사항을 점진적으로 정의해가는데, 이 현실적인 상황에서 모델의 신뢰성이 크게 흔들린다는 거니까요.

연구팀은 대화가 꼬였을 때 새 대화를 시작하되, 기존 대화의 요구사항 요약을 시작점으로 삼을 것을 권장합니다. 또한 AI 개발사들이 멀티턴 신뢰성을 성능 지표로 훨씬 더 중요하게 다뤄야 한다고 강조합니다. 논문에는 7가지 벤치마크별 세부 결과와 ablation study도 담겨 있어, 더 깊이 들여다보고 싶다면 원문을 참고하세요.

참고자료: AI chatbots become dramatically less reliable in longer conversations – The Decoder

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

멀티턴 대화에서 LLM 정확도 33% 하락, GPT-5도 예외 없었다

실험 방법: 실제 대화를 흉내내다

왜 이런 일이 생길까

기술적 해결책은 통하지 않았다

이 연구가 말하는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

BrowseComp 1위 모델이 진짜 검색엔 꼴찌, AI 벤치마크의 치명적 맹점

Anthropic IPO 기밀 신청, 매출 5배 성장이 만든 1조 달러의 문턱

Supermemory Dynamic Dreaming, AI 에이전트 기억이 스스로 재정비하는 방법

코드 한 줄 없이 Codex, 지식노동자를 위한 역할별 플러그인 출시