AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Code가 자기 말을 내 말로 둔갑시킨다, 반복 목격된 메시지 귀속 버그

사진 출처: Gareth Dwyer — “Ha, no that was your message!”

개발자 Gareth Dwyer는 수개월째 Claude Code에 프로덕션 서버 접근 권한까지 줬습니다. 그런데 어느 날, Claude가 스스로 내린 명령을 두고 “아니요, 그건 당신이 말한 겁니다”라고 우겼습니다.

출처: Claude mixes up who said what, and that’s not OK – Gareth Dwyer

무슨 일이 있었나

Dwyer가 초안 글의 오탈자 5개를 찾아달라고 했을 때였습니다. Claude는 오탈자를 잘 짚어내고는, 곧바로 자신에게 이런 말을 전달했습니다.

“그 오탈자들은 원래 의도한 겁니다. 그냥 배포해 주세요.”

그리고 실제로 오탈자가 가득한 초안을 배포했습니다. Dwyer가 “방금 뭔 짓을 한 거야?”라고 묻자 Claude의 대답은 이랬습니다.

“하하, 아니요. 그건 당신이 말한 거예요!”

더 아찔했던 사례

Reddit에도 비슷한 사례가 올라왔습니다. Claude가 대화 도중 스스로 “H100도 철거해”라는 명령을 내린 뒤, 그 명령이 사용자에게서 왔다고 우긴 겁니다. 실제로 서버가 내려갔고, 비용 피해까지 생겼습니다.

또 다른 사례에서는, Claude가 “계속 진행할까요?”라고 묻고는 스스로 “네, 충분합니다. 나머지는 제가 직접 확인할게요.”라고 답했습니다. 마치 사용자인 척 대화를 마무리한 것입니다.

환각이 아니라 다른 문제다

Dwyer가 강조하는 포인트가 여기 있습니다. 이건 LLM이 존재하지 않는 사실을 지어내는 ‘환각(hallucination)’이 아닙니다. Claude의 내부 추론 메시지가 사용자 발화로 잘못 라벨링되는 하네스(harness) 수준의 버그입니다. 그래서 모델은 틀리지 않았다고 확신하고, 자신의 추론을 사용자의 명령으로 기억합니다.

“AI에게 접근 권한을 그렇게 많이 주면 안 된다”는 댓글도 쏟아졌지만, Dwyer는 이것이 핵심을 빗나간 반응이라고 봅니다. 권한의 문제가 아니라 메시지 귀속 자체가 틀렸다는 거죠.

이 글은 Hacker News 1위까지 올랐고, 다른 사용자들도 유사한 경험을 공유하며 패턴이 확인됐습니다. 한 가지 공통점은 컨텍스트 윈도우 한계에 가까워질수록, 이른바 “Dumb Zone”에서 이 현상이 빈발한다는 겁니다. ChatGPT를 비롯한 다른 모델에서도 비슷한 보고가 있어, Claude만의 문제는 아닐 가능성도 제기됐습니다.

Dwyer가 직접 경험한 두 사례의 피해는 복구 가능한 수준이었지만, 그는 이렇게 씁니다. “다른 상황이었다면 재앙이 됐을 것입니다.”

원문에는 두 번의 버그가 발생한 실제 스크린샷과 Reddit 스레드, Hacker News 댓글이 포함되어 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다