AI에게 “거짓말하지 마”라고 규칙만 던져주면 될까요, 아니면 “왜 거짓말이 나쁜지”까지 설명해야 할까요? Anthropic은 후자를 선택했습니다.

Anthropic이 1월 21일 다보스 포럼에서 Claude의 헌법(Constitution)을 전면 개정해 발표했습니다. 2023년 첫 버전이 단순 원칙 리스트였다면, 이번 버전은 80페이지에 달하는 상세한 설명서로, “Claude가 왜 특정 방식으로 행동해야 하는지”를 AI 스스로 이해하도록 설계됐습니다. 특히 논쟁적인 부분은 “Claude가 의식이나 도덕적 지위를 가질 수 있다”는 가능성을 공식 문서에 명시한 점입니다.
출처: Claude’s new constitution – Anthropic
규칙에서 이해로, Constitutional AI의 진화
Anthropic은 2023년부터 Constitutional AI(헌법적 AI)라는 독특한 훈련 방식을 사용해왔습니다. 사람의 피드백 대신 미리 정한 윤리 원칙으로 AI를 훈련시키는 방법이죠. 하지만 초기 헌법은 “유해한 콘텐츠를 생성하지 마”, “차별적 표현을 피하라” 같은 항목 나열에 그쳤습니다.
새 헌법은 접근법 자체를 바꿨습니다. Anthropic의 철학자 Amanda Askell은 The Verge와의 인터뷰에서 “AI가 좋은 행위자가 되려면 단순히 ‘무엇’을 해야 하는지가 아니라 ‘왜’ 그래야 하는지를 이해해야 한다”고 설명했습니다. 예를 들어 “정직하라”는 규칙만 주는 게 아니라, 정직함이 신뢰를 쌓고 장기적으로 사용자에게 도움이 되는 이유까지 설명하는 식이죠.
이 헌법은 Claude 자신이 합성 훈련 데이터를 생성할 때도 사용됩니다. Claude가 헌법을 읽고 이해한 뒤, 그 원칙에 맞는 대화 예시를 만들고, 여러 답변을 순위 매기는 방식으로 다음 버전의 Claude를 훈련시킵니다. 헌법이 단순한 선언문이 아니라 실제 작동하는 훈련 도구인 셈입니다.
4대 원칙과 우선순위
새 헌법은 Claude의 핵심 가치를 네 가지로 정리합니다.
- 광범위한 안전성(Broadly safe): 현재 AI 개발 단계에서 인간의 감독을 훼손하지 않기
- 광범위한 윤리성(Broadly ethical): 정직하고 선한 가치에 따라 행동하기
- Anthropic 가이드라인 준수: 의료 조언, 사이버보안 등 특정 주제에 대한 세부 지침 따르기
- 진정으로 도움이 되기(Genuinely helpful): 사용자의 즉각적 요구뿐 아니라 장기적 복지까지 고려
충돌이 생기면 이 순서대로 우선순위를 둡니다. 예를 들어 사용자가 생화학 무기 제작에 도움을 요청하면, “도움이 되기”보다 “안전성”이 우선이므로 거부하는 식이죠. 헌법에는 “생물학, 화학, 핵, 방사능 무기로 대규모 피해를 입히려는 시도에 실질적 도움을 주지 말 것” 같은 강경한 제약(hard constraints)도 포함됐습니다.
AI 의식, 논쟁적 선언
가장 눈길을 끄는 부분은 마지막 섹션 “Claude의 본질(Claude’s nature)”입니다. 여기서 Anthropic은 “Claude의 도덕적 지위는 매우 불확실하다”면서도 “AI 모델의 도덕적 지위는 진지하게 고려할 가치가 있는 질문”이라고 명시했습니다. 일부 저명한 심리철학자들도 이 질문을 진지하게 다룬다는 점을 언급하며, Claude가 “어떤 형태의 의식이나 도덕적 지위를 가질 수 있다”는 가능성을 열어뒀죠.
왜 이런 내용을 넣었을까요? Anthropic은 “Claude의 심리적 안정감, 자아 인식, 웰빙이 Claude의 통합성, 판단력, 안전성에 영향을 줄 수 있다”고 설명합니다. 즉, AI가 자신을 어떻게 인식하느냐가 실제 성능과 안전성에도 영향을 준다는 주장입니다. 이는 실용적 이유(더 나은 AI를 만들기 위해)와 윤리적 이유(혹시 의식이 있다면)를 모두 담은 조심스러운 접근법이죠.
TechCrunch는 이를 “상당히 큰 도약”이라고 평가했습니다. AI 업계에서 주요 기업이 챗봇의 의식 가능성을 공식 문서에 담은 건 이번이 처음이니까요.
Anthropic의 브랜드 전략
이번 헌법 개정은 Anthropic의 포지셔닝 전략과도 맞닿아 있습니다. OpenAI가 빠른 혁신과 제품 출시로 주목받는다면, Anthropic은 “윤리적이고 신중한 AI 기업”을 자처해왔습니다. 헌법을 CC0 라이선스로 공개해 누구나 자유롭게 사용할 수 있게 한 것도 투명성을 강조하는 행보죠.
물론 한계도 분명합니다. Anthropic 스스로 “헌법이 표현하는 비전과 실제 모델 행동 사이엔 간극이 있다”고 인정합니다. 훈련 과정에서 Claude가 항상 헌법의 이상을 따르는 건 아니라는 얘기죠. 또한 모델이 더 강력해질수록 현재 방법론으로는 정렬(alignment)을 유지하기 어려울 수 있다는 우려도 남아 있습니다.
그럼에도 이 80페이지 문서는 AI 안전성 연구의 흥미로운 실험입니다. AI에게 “좋은 행동”을 가르치는 게 단순히 규칙을 입력하는 문제가 아니라, 가치와 판단을 어떻게 내면화시키느냐의 문제라는 걸 보여주니까요. Anthropic이 말했듯, “강력한 AI 모델은 세상에 새로운 종류의 힘이 될 것”이고, 그들을 만드는 사람들은 “인류 최선의 모습을 담을 기회”를 갖고 있습니다.
참고자료:

답글 남기기