AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

멀티턴 대화에서 LLM 정확도 33% 하락, GPT-5도 예외 없었다

AI와 대화를 길게 이어가다 보면 왠지 뒤로 갈수록 답이 엉뚱해지는 느낌, 받아본 적 있지 않으신가요? 기분 탓이 아니었습니다.

사진 출처: The Decoder

Microsoft·Salesforce 연구팀의 Philippe Laban이 이끄는 연구에서, GPT-5를 포함한 최신 프론티어 LLM들도 대화가 여러 턴으로 길어지면 정확도가 평균 33% 하락한다는 결과가 나왔습니다. 이전 세대 모델에서 39%였던 수치가 소폭 개선됐을 뿐, 문제의 본질은 그대로입니다.

출처: Even frontier LLMs from GPT-5 onward lose up to 33% accuracy when you chat too long – The Decoder

실험 방법: 실제 대화를 흉내내다

연구팀은 ‘샤딩(sharding)’이라는 실험 방법을 고안했습니다. 보통 AI 평가는 모든 조건을 한 번에 넘겨주는 방식인데, 현실에서 사람들은 그렇게 대화하지 않죠. 처음엔 대략적인 요청을 하고, 이후 조건을 조금씩 추가하거나 방향을 바꾸는 식으로 대화가 진행됩니다.

샤딩은 바로 이 패턴을 재현합니다. 원래 완전한 지시문을 여러 턴으로 쪼개서 순차적으로 제공하는 거죠. 코드, 데이터베이스, 수학, 요약 등 6가지 과제에 걸쳐 테스트한 결과, 한 번에 모든 정보를 받았을 때 90% 수준이던 정확도가 멀티턴 환경에서 51%까지 떨어졌습니다.

왜 이런 일이 생길까

연구팀이 20만 건 이상의 시뮬레이션 대화를 분석한 결과, 네 가지 패턴이 반복됐습니다.

첫째, 모델이 정보가 다 모이기도 전에 결론부터 내립니다. 아직 조건이 남아있는데 일찍 답을 내버리는 거죠. 둘째, 한번 낸 (틀린) 답에 지나치게 의존합니다. 이후 대화에서 정보가 추가돼도 초기 답을 수정하지 않으려 합니다. 셋째, 대화 중간에 나온 정보를 잘 기억하지 못하고, 넷째, 과도하게 상세한 답변을 생성하면서 정보 공백을 임의로 채워버립니다.

결국 한번 방향을 잘못 잡으면, 모델은 스스로 돌아오지 못한다는 게 연구팀의 핵심 표현입니다.

기술적 해결책은 통하지 않았다

주목할 만한 건 온도(temperature) 값을 낮추거나 지시문 반복 같은 흔한 기술적 조치들이 효과가 없었다는 겁니다. 정확도 하락을 두 요소로 분해해보면, 모델의 기본 능력(aptitude) 저하는 16% 수준에 불과했지만, 비일관성(unreliability)은 무려 112% 증가했습니다. 같은 과제를 여러 번 돌렸을 때 결과가 최대 50%p까지 벌어지기도 했고요.

즉, 최신 모델로 업그레이드해도 이 문제는 해결되지 않습니다. GPT-5 세대 이후 프론티어 모델들도 30~33% 수준의 하락에서 벗어나지 못했습니다.

이 연구가 말하는 것

싱글턴(단일 입력) 환경에서만 테스트해온 기존 AI 평가 방식의 맹점을 지적한다는 점에서 이 연구는 주목할 만합니다. 실제 사용자들은 대화를 통해 요구사항을 점진적으로 정의해가는데, 이 현실적인 상황에서 모델의 신뢰성이 크게 흔들린다는 거니까요.

연구팀은 대화가 꼬였을 때 새 대화를 시작하되, 기존 대화의 요구사항 요약을 시작점으로 삼을 것을 권장합니다. 또한 AI 개발사들이 멀티턴 신뢰성을 성능 지표로 훨씬 더 중요하게 다뤄야 한다고 강조합니다. 논문에는 7가지 벤치마크별 세부 결과와 ablation study도 담겨 있어, 더 깊이 들여다보고 싶다면 원문을 참고하세요.

참고자료: AI chatbots become dramatically less reliable in longer conversations – The Decoder


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다