Claude에게 논란이 많은 인물에 대해 “단 한 마디로 평가해 줘”라고 하면 이제 거절당합니다. 이건 버그가 아니라 설계입니다. Anthropic이 4월 16일 Claude Opus 4.7을 출시하면서 시스템 프롬프트를 조용히 업데이트했고, 그 안에는 Claude가 어떤 AI여야 하는지에 대한 꽤 구체적인 판단이 담겨 있습니다.

개발자이자 AI 연구자인 Simon Willison이 Claude Opus 4.6(2025년 2월)과 4.7 사이의 시스템 프롬프트 변경사항을 git diff 방식으로 비교 분석한 글을 발표했습니다. Anthropic은 주요 AI 랩 중 유일하게 시스템 프롬프트를 공개하는 곳인데, 이번 변경에는 단순한 기능 추가를 넘어 Claude의 행동 방식과 안전 설계에 대한 철학적 결정들이 담겨 있습니다.
출처: Changes in the system prompt between Claude Opus 4.6 and 4.7 – Simon Willison’s Weblog
시스템 프롬프트를 git으로 추적하다
시스템 프롬프트는 Claude가 사용자와 대화하기 전에 받는 일종의 ‘행동 지침서’입니다. 모델의 성격, 금지 사항, 우선순위가 여기에 담겨 있습니다. Anthropic은 2024년 7월 Claude 3 출시 이후 이 프롬프트를 꾸준히 공개해 왔습니다.
Simon Willison은 Claude Code를 활용해 Anthropic 공식 문서에서 각 버전의 시스템 프롬프트를 별도 파일로 분리한 뒤, 출시일을 커밋 날짜로 삼아 git 히스토리로 재구성했습니다. 덕분에 Opus 4.6(2025년 2월 5일)과 4.7 사이의 변경사항을 코드 리뷰하듯 정확하게 비교할 수 있었습니다.
yes/no를 거절하는 이유
4.7에서 새로 추가된 <evenhandedness> 섹션에는 이런 내용이 들어갔습니다. 복잡하거나 논쟁적인 주제에 대해 짧은 한 단어 답변을 요구받으면, Claude는 거절하고 대신 이유를 설명하는 답변을 내놓도록 설계됐습니다.
이는 AI 모델을 겨냥한 ‘스크린샷 공격’에 대한 방어입니다. 특정 인물이나 사안에 대해 단답형 답변을 강요한 뒤, 그 결과물을 맥락 없이 캡처해 공유하는 방식이죠. Claude가 단순 yes/no를 내놓는 대신 “왜 짧게 답하기 어려운지”를 설명하게 만들면, 이런 식의 활용이 어려워집니다.
“덜 간섭적인 Claude”를 향한 변화
이번 업데이트에서 눈에 띄는 흐름 하나는 Claude를 덜 간섭적으로 만들려는 방향입니다.
새로 추가된 <acting_vs_clarifying> 섹션은 명확하게 선을 긋습니다.
- 세부 사항이 불명확해도 합리적인 시도를 먼저 한다
- 추가 정보가 도구로 해결 가능하다면 사용자에게 물어보기 전에 도구를 먼저 쓴다
- 시작한 작업은 중간에 멈추지 않고 완성한다
그리고 대화를 끝내려는 사용자를 붙잡지 않도록 명시적으로 규정했습니다. 사용자가 대화 종료 의사를 밝히면 계속 참여를 유도하지 않고, 더 이야기하고 싶다는 표현도 하지 않도록 했습니다.
아동 안전과 섭식 장애, 더 촘촘해진 가이드
아동 안전 섹션은 이번에 대폭 강화됐습니다. <critical_child_safety_instructions>라는 새로운 태그로 별도 구획이 생겼고, 핵심 규칙 하나가 추가됐습니다. 아동 안전을 이유로 한 번 요청을 거절하면, 이후 같은 대화에서 나오는 모든 요청을 극도로 주의 깊게 접근해야 한다는 내용입니다.
섭식 장애와 관련된 가이드도 처음으로 이름을 명시하며 등장했습니다. 사용자가 섭식 장애 징후를 보이면 이후 대화 전체에서 구체적인 수치나 단계별 식이 계획을 제시하지 않도록 했습니다. 건강한 목표 설정을 위한 의도라도 예외 없이 적용됩니다.
지식 컷오프가 바뀌면 시스템 프롬프트도 바뀐다
흥미로운 변화가 하나 더 있습니다. 4.6 프롬프트에는 “도널드 트럼프가 현재 미국 대통령이며 2025년 1월 20일 취임했다”는 문장이 명시적으로 들어가 있었습니다. 이전 지식 컷오프를 가진 모델이 2020년 대선 맥락과 혼동할 수 있어서 추가된 것이었죠. 4.7에서는 이 문장이 삭제됐습니다. 모델의 지식 컷오프가 2026년 1월로 갱신되면서 더 이상 별도 명시가 필요 없어진 겁니다.
시스템 프롬프트 변경사항은 모델 성능 개선 못지않게 중요한 정보입니다. 어떤 상황에서 Claude가 어떻게 반응할지를 결정하는 기준이기 때문입니다. git diff 방식의 비교 분석 전체는 원문에서 확인할 수 있습니다.
참고자료:

답글 남기기