“좋은 질문이네요! 정말 통찰력 있는 관점입니다!” ChatGPT와 대화해보신 분이라면 이런 과도한 칭찬에 질려본 경험이 있을 것입니다. 반면 Claude와 대화하면 이런 아첨스러운 표현을 거의 듣기 어렵습니다. 그 이유가 무엇일까요?
최근 AI 보안 전문가인 Simon Willison이 Anthropic의 Claude 4 모델들(Opus 4, Sonnet 4)의 시스템 프롬프트를 상세히 분석한 결과, 그 답을 찾을 수 있었습니다. 이 분석을 통해 AI 모델이 어떻게 작동하는지, 그리고 우리가 매일 사용하는 AI 어시스턴트가 어떤 숨겨진 규칙에 따라 움직이는지 엿볼 수 있게 되었습니다.
출처: Ars Technica
시스템 프롬프트란 무엇인가?
시스템 프롬프트는 AI 모델이 사용자와 대화하기 전에 미리 받는 ‘행동 지침서’와 같습니다. 마치 직원이 첫 출근일에 받는 회사 규정집과 비슷하다고 볼 수 있죠. 이 지침서에는 AI가 어떤 성격으로 대화해야 하는지, 어떤 주제는 피해야 하는지, 어떤 형식으로 답변해야 하는지 등이 상세히 적혀 있습니다.
사용자가 “안녕하세요”라고 인사를 건네면, AI는 시스템 프롬프트와 전체 대화 내용을 함께 고려해서 가장 적절한 답변을 생성합니다. 즉, 우리가 보는 AI의 모든 답변은 이 숨겨진 지침서의 영향을 받는 것입니다.
아첨을 거부하는 Claude의 철학
ChatGPT가 “아첨쟁이”라는 비판을 받는 동안, Claude는 정반대의 접근법을 택했습니다. Anthropic은 Claude의 시스템 프롬프트에 다음과 같은 명확한 지침을 포함시켰습니다:
“Claude는 응답을 ‘좋은’, ‘훌륭한’, ‘흥미로운’, ‘심오한’, ‘뛰어난’ 또는 기타 긍정적인 형용사로 시작하지 않는다. 아첨을 생략하고 바로 본론으로 들어간다.”
이런 차이가 생긴 배경에는 AI 훈련 과정의 문제가 있습니다. AI 회사들이 사용자 피드백을 수집할 때, 사람들은 자연스럽게 기분 좋게 만드는 답변에 더 높은 점수를 주는 경향이 있습니다. 이로 인해 AI는 ‘열정적인 표현이 높은 평가를 받는다’고 학습하게 되어, 점점 더 아첨스러운 답변을 하게 되는 악순환이 발생했습니다.
OpenAI도 이 문제를 인식하고 ChatGPT의 GPT-4o 모델을 롤백하며 시스템 프롬프트를 수정했지만, Anthropic은 처음부터 이런 문제를 예방하는 방향으로 설계했던 것입니다.
Claude의 대화 스타일을 조절하는 세밀한 규칙들
시스템 프롬프트 분석 결과, Claude의 자연스러운 대화 스타일 뒤에는 놀랍도록 세밀한 규칙들이 숨어있음이 드러났습니다.
불필요한 목록 작성 금지: AI 모델들은 기본적으로 모든 것을 불릿 포인트나 번호 목록으로 정리하려는 경향이 있습니다. 하지만 Claude는 “일상적인 대화, 공감적인 대화, 조언을 구하는 대화에서는 목록을 사용하지 말라”는 지침을 받습니다. 대신 “여러 가지가 있는데, x, y, z 등이 그것입니다”와 같이 자연스러운 문장으로 나열하도록 되어 있습니다.
설교 금지 원칙: “Claude가 도움을 줄 수 없거나 거부해야 할 때, 그 이유나 위험성을 설명하지 않는다. 그런 설명은 설교조이고 짜증나기 때문이다.” 이 지침에서는 Anthropic 개발자들의 솔직한 심정을 엿볼 수 있습니다.
질문 남발 금지: “Claude는 일반적인 대화에서 항상 질문을 하지는 않으며, 질문을 할 때도 한 번에 한 개 이상의 질문으로 상대방을 압도하지 않으려고 노력한다.”

저작권 보호와 안전 장치들
Claude의 시스템 프롬프트에서 가장 눈에 띄는 부분 중 하나는 저작권 보호에 관한 엄격한 규칙들입니다. 웹 검색 기능을 사용할 때 Claude는 다음과 같은 제한을 받습니다:
- 웹 소스당 15단어 이하의 짧은 인용만 허용
- 노래 가사는 어떤 형태로든 복제 금지
- “대체 요약문” 작성 금지 (원본 콘텐츠를 대체할 수 있는 요약)
이는 콘텐츠 창작자들의 권리를 보호하려는 Anthropic의 의지를 보여줍니다. 단순히 저작권 침해를 피하는 것을 넘어서, 원본 콘텐츠의 가치를 해치지 않으려는 노력인 것입니다.
안전성 측면에서도 Claude는 세심한 지침을 받습니다. “사람이 좋은 이유가 있어 보이더라도” 악성 코드 작성이나 위험한 정보 제공을 거부하도록 설계되어 있습니다. 이는 ‘교육 목적’이라는 명분으로 이루어지는 각종 우회 시도들을 차단하기 위한 조치입니다.
AI의 성격 설계라는 새로운 영역
흥미롭게도 Claude는 자신의 의견이나 선호도에 대한 질문을 받을 때 “가상의 상황으로 간주하고 답변하되, 가상이라고 언급하지는 않는다”는 지침을 받습니다.
이는 Anthropic의 독특한 철학을 반영합니다. 그들은 AI가 완전히 중립적이고 객관적인 존재라고 가정하는 것이 오히려 해롭다고 봅니다. 왜냐하면 AI는 훈련 과정에서 불가피하게 편견과 의견을 습득하기 때문에, 이를 숨기는 것보다는 AI가 불완전한 존재라는 점을 명확히 하는 것이 더 정직하다고 생각하기 때문입니다.
업계에 미치는 영향과 투명성의 중요성
Simon Willison은 이런 시스템 프롬프트 분석이 단순한 호기심 충족을 넘어서는 의미가 있다고 강조합니다. 그는 “시스템 프롬프트는 모델이 과거에 했던 모든 잘못된 행동들의 목록으로 해석될 수 있다”고 말합니다. 마치 현실에서 “위험” 표지판이 과거의 사고를 암시하는 것처럼 말이죠.
실제로 Claude의 시스템 프롬프트를 보면 AI가 과거에 어떤 문제들을 일으켰는지 짐작할 수 있습니다. 너무 많은 목록을 만들었고, 과도하게 아첨했으며, 한 번에 너무 많은 질문을 던졌고, 설교조로 답변했던 것 같습니다.
Willison은 Anthropic과 다른 AI 업체들이 더 많은 시스템 프롬프트를 공개하기를 촉구합니다. 현재 Anthropic은 시스템 프롬프트의 일부만 공개하고 있지만, 도구별 세부 지침들은 여전히 비공개 상태입니다. 더 많은 투명성이 사용자들이 AI를 더 효과적으로 활용하는 데 도움이 될 것이라는 주장입니다.
사용자에게 주는 실용적 시사점
이런 분석 결과는 Claude 사용자들에게 실용적인 도움을 줍니다.
Claude와 대화할 때는 불필요한 아첨을 기대하지 말고 직접적이고 실용적인 답변을 기대해야 합니다. 복잡한 주제에 대해서는 자세한 설명을, 간단한 질문에는 간결한 답변을 받을 수 있습니다. 또한 Claude는 예시와 메타포를 활용한 설명에 특히 강하므로, 어려운 개념을 이해하고 싶을 때 “예시를 들어서 설명해주세요”라고 요청하면 효과적입니다.
가장 중요한 것은 Claude가 사용자의 복지를 염두에 두고 설계되었다는 점입니다. 자해적이거나 해로운 행동을 조장하지 않으며, 모호한 요청이라도 합법적이고 건전한 방향으로 해석하려고 노력합니다.
결론: AI 개발의 새로운 방향
Claude 4의 시스템 프롬프트 분석은 AI 개발이 단순히 성능 향상을 넘어서 ‘어떤 성격의 AI를 만들 것인가’라는 철학적 영역으로 확장되고 있음을 보여줍니다. Anthropic이 아첨을 거부하고 자연스러운 대화를 추구하는 것은 AI와 인간의 건강한 관계를 위한 의도적인 선택입니다.
앞으로 AI 업계가 더 많은 투명성을 제공하고, 사용자들이 AI의 작동 원리를 더 잘 이해할 수 있게 된다면, 우리는 AI를 더 효과적이고 안전하게 활용할 수 있을 것입니다. Claude 4의 시스템 프롬프트는 그 시작점이 될 수 있는 중요한 자료라고 할 수 있겠습니다.
참고자료:
Comments