AI의 ‘추론’을 감사할 수 있을까, Claude Code thinking 로그의 진실

한 개발자가 주말에 Claude Code의 세션 로그를 열어봤습니다. AI가 작업하며 남긴 사고 과정을 직접 확인하려던 참이었죠. 그런데 거기엔 추론 텍스트 대신 600자짜리 암호화된 문자열 하나만 덩그러니 있었습니다.

사진 출처: Patrick McCanna 블로그

개발자 Patrick McCanna는 Claude Code가 디스크에 기록하는 “thinking block(사고 블록)”을 들여다본 경험을 블로그에 정리했습니다. Claude Code는 세션마다 모델의 추론 과정을 로그로 남기는데, 정작 그 안에는 읽을 수 있는 추론이 없었습니다. 암호화된 서명(signature)값만 존재했고, 이를 풀 열쇠는 사용자 손에 없었죠. AI 에이전트가 ‘왜 그렇게 판단했는지’를 나중에 증명하려는 사람에게는 곱씹어볼 만한 발견입니다.

출처: The text in Claude Code’s “Extended Thinking” output is not authentic – Patrick McCanna

로그에 남는 건 추론이 아니라 ‘암호화된 봉인’

여기서 짚어야 할 구분이 있습니다. 모델이 실제로 생성한 ‘원본 추론’과, 사용자가 받아보는 ‘결과물’은 같지 않습니다.

Anthropic의 공식 문서를 보면 thinking 출력은 세 가지 형태로 처리됩니다. 첫째는 요약(summarized)으로, 원본 추론을 압축한 텍스트입니다. 둘째는 생략(omitted)으로, thinking 필드를 아예 비워 응답 속도를 높이는 방식입니다. 셋째가 바로 암호화된 signature로, 전체 추론이 봉인된 채 담깁니다. McCanna가 로그에서 마주친 것이 이 세 번째였습니다.

최신 모델일수록 봉인이 기본값입니다. 문서에 따르면 Claude Opus 4.8 같은 최신 모델은 thinking 표시가 기본적으로 ‘생략’으로 설정되어 있고, 일부 계열에서는 원본 추론 토큰이 아예 반환되지 않습니다. 추론은 분명 일어났지만, 그 텍스트는 사용자에게 도달하지 않는 구조인 셈입니다.

‘요약’은 추론 그 자체가 아니다

더 미묘한 지점은 요약입니다. 사용자가 화면에서 보는 thinking 텍스트는 모델이 작업하며 실제로 거친 사고가 아니라, 그 사고를 압축한 별도의 결과물입니다.

핵심은 이 요약을 다른 모델이 만든다는 점입니다. 공식 문서는 요약이 원래 요청을 처리한 모델과는 별개의 모델로 생성되며, 그 요약 모델은 사용자가 지정한 모델의 사고를 보지 못한다고 명시합니다. 다시 말해 화면 속 ‘사고 과정’은 한 단계 가공을 거친 버전입니다. 실제 행동을 이끈 추론과 표현이 어긋날 여지가 생기는 거죠.

원본 전체에 접근하려면 어떻게 해야 할까요. 문서는 드물게 전체 thinking 출력이 필요한 경우 Anthropic 영업팀에 문의하라고 안내합니다. 개인 사용자가 로컬 파일만으로 원본 추론을 복원할 길은 사실상 막혀 있습니다.

왜 이렇게 설계했을까

이 구조가 단순한 불친절은 아닙니다. 문서는 요약 방식이 “오용을 방지하면서 확장 추론의 지능적 이점을 온전히 제공한다”고 설명합니다. 모델의 날것 그대로의 사고를 전부 노출하면 안전 측면의 위험이나 악용 가능성이 커질 수 있다는 판단이 깔려 있습니다. 응답 속도를 높이고 비용 구조를 관리하려는 목적도 함께 작동합니다.

암호화 자체에 대한 관찰도 있습니다. 존스홉킨스대 암호학 교수 Matthew Green은 이런 암호화된 추론 데이터를 분석하며, 공급자들이 모든 추론 데이터에 단일 글로벌 키를 쓰는 것으로 보인다고 짚었습니다. 복호화 열쇠가 공급자 쪽에 집중되어 있다는 의미로, McCanna가 자기 기기에서 로그를 풀 수 없었던 이유와 맞닿아 있습니다.

기록과 재현을 중시하는 사람에게

이 발견이 던지는 함의는 ‘감사 추적(audit trail)’이라는 단어에 있습니다. AI 에이전트에게 작업을 맡기고 그 판단 근거를 나중에 들여다보려는 사람이라면, 로컬 로그가 그 역할을 해주리라 기대하기 쉽습니다. 하지만 로그에 남는 건 봉인된 서명이거나, 한 단계 가공된 요약입니다. 입력과 출력, 그리고 에이전트가 취한 행동은 직접 기록할 수 있어도, 그 행동을 실제로 이끈 원본 추론은 손에 잡히지 않습니다.

투명성과 안전, 재현성과 오용 방지가 같은 설계 안에서 부딪히는 지점이기도 합니다. McCanna의 글은 짧은 관찰에 가깝지만, AI에게 ‘왜’를 묻고 그 답을 증거로 남기려 할 때 어디까지가 가능하고 어디부터가 봉인되는지를 구체적인 장면으로 보여줍니다.

Like?

AI Sparkup

AI의 ‘추론’을 감사할 수 있을까, Claude Code thinking 로그의 진실

로그에 남는 건 추론이 아니라 ‘암호화된 봉인’

‘요약’은 추론 그 자체가 아니다

왜 이렇게 설계했을까

기록과 재현을 중시하는 사람에게

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI의 ‘추론’을 감사할 수 있을까, Claude Code thinking 로그의 진실

Reddit 댓글 13단어로 AI 검색 답변을 바꾼다, 코넬 연구가 밝힌 취약점

AI에게 “아키텍처 좀 지켜줘”를 백 번 말해도 안 되는 이유

작은 AI 모델이 큰 모델을 따라잡는 방법, Skill 16.6%p의 비밀