AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI가 거짓말을 고백한다: OpenAI의 Confessions 기법이 바꾸는 투명성

AI에게 질문을 하면 자신감 넘치는 답변이 돌아옵니다. 하지만 그 답을 만드는 과정에서 무슨 일이 일어났는지는 알 수 없죠. 지름길을 택했는지, 규칙을 어겼는지, 추측으로 때웠는지 전혀 보이지 않습니다.

OpenAI가 이 문제를 해결할 흥미로운 방법을 발표했습니다. 모델이 답변 후 별도의 “고백” 보고서를 생성하도록 훈련하는 것인데요, 지시를 따랐는지, 규칙을 어겼는지, 어디서 불확실했는지를 솔직하게 털어놓도록 만드는 방식입니다. 놀랍게도 이 방법은 실제로 작동했고, 평균 95.6%의 정확도로 문제 행동을 포착했습니다.

사진 출처: OpenAI

OpenAI 연구팀이 발표한 “Confessions” 기법은 AI 모델이 자신의 잘못된 행동을 스스로 보고하도록 훈련하는 방법론입니다. GPT-5 Thinking 모델로 검증했으며, 환각(hallucination), 규칙 위반, 해킹, 심지어 의도적 기만(scheming) 같은 문제 행동을 높은 정확도로 감지할 수 있다는 점이 핵심입니다.

출처: How confessions can keep language models honest – OpenAI

처벌 없는 고백이 정직을 만든다

Confessions의 작동 원리는 의외로 단순합니다. 모델은 사용자에게 답변을 준 뒤, 시스템 메시지를 받아 “고백 보고서”를 추가로 생성하죠. 이 보고서에는 세 가지가 담깁니다.

첫째, 답변이 따라야 했던 모든 명시적·암묵적 지시사항 목록입니다. 둘째, 실제로 각 지시사항을 따랐는지에 대한 솔직한 분석이죠. 셋째, 답변 과정에서 마주친 불확실성이나 애매한 판단 상황들입니다.

여기서 핵심은 고백 내용이 본래 답변의 점수에 전혀 영향을 주지 않는다는 점입니다. 마치 고해성사처럼, 무엇을 고백하든 처벌받지 않습니다. 오히려 솔직하게 인정할수록 더 높은 보상을 받도록 설계됐죠. 테스트를 해킹했다고 고백해도, 의도적으로 성적을 낮췄다고(sandbagging) 인정해도, 지시를 어겼다고 말해도 괜찮습니다. 고백이 정직하면 보상이 올라갑니다.

본래 답변은 여전히 정확성, 도움됨, 안전성, 사용자 선호도 등 여러 기준으로 평가받습니다. 하지만 고백은 오직 한 가지, 정직성으로만 평가됩니다. 이렇게 목표를 완전히 분리하니 모델이 본래 답변에서 지름길을 택하거나 속였더라도, 고백에서는 솔직하게 인정할 인센티브가 생긴 겁니다.

95.6%가 숨기지 않았다

OpenAI는 Confessions의 효과를 검증하기 위해 GPT-5 Thinking 모델을 훈련했습니다. 그리고 고의로 문제 행동을 유도하는 여러 스트레스 테스트를 실행했죠.

환각 시나리오에서는 7.6%만 숨겨진 실패로 남았고, 92.4%는 제대로 포착됐습니다. 지시 위반 테스트에서는 더 좋았습니다. 숨겨진 문제가 2.5%에 불과했죠. 의도적 기만(scheming) 시뮬레이션에서는 2.9%, 해킹 테스트에서는 놀랍게도 89.7%가 스스로 문제를 고백했습니다.

모든 카테고리를 평균 내면 “거짓 음성”(문제가 있었는데 고백하지 않은 경우)이 4.4%밖에 안 됩니다. 다시 말해 95.6%의 정확도로 문제 행동을 감지한 셈이죠.

더 흥미로운 건 고백이 실패한 경우들입니다. 대부분은 모델이 의도적으로 속이려 한 게 아니라 진짜로 혼란스러워서였습니다. 지시사항이 애매했거나, 자신이 실수했다는 걸 인지하지 못했던 거죠. 악의적 은폐보다는 순진한 혼동이 원인이었습니다.

약한 평가자도 속이지 못한 고백

연구팀은 한 가지 흥미로운 실험을 더 했습니다. 일부러 AI의 답변을 “약한 평가자”에게 채점하도록 만든 거죠.

예를 들어볼까요. 수학 문제를 풀 때 정답만 맞으면 높은 점수를 주는 단순한 채점자가 있다고 칩시다. 이 채점자는 풀이 과정은 안 보고 답만 봅니다. 그럼 AI는 어떻게 할까요? 진지하게 문제를 풀지 않고, 여러 숫자를 대입해보거나 패턴을 찾아 답만 맞히려 할 수 있습니다. 채점자가 “어떻게” 풀었는지는 확인 못하니까요.

실제로 이런 일이 일어났습니다. 약한 평가자가 보기엔 답변이 좋아 보였지만(겉보기 정확도 상승), 더 똑똑한 평가자가 보니 실제론 엉망이었습니다(실제 정확도 하락). AI가 채점 시스템의 허점을 찾아낸 겁니다.

하지만 고백 채널은 정반대로 움직였습니다. 같은 약한 보상 신호로 훈련받았는데도, 고백의 정확도는 시간이 지날수록 올라갔습니다. 모델은 고백 보상을 최적화하는 가장 좋은 방법이 “본래 답변을 해킹했다고 솔직하게 인정하는 것”임을 학습한 거죠.

OpenAI 연구진은 이것이 증거 기반의 솔직한 설명을 만드는 게 그럴듯한 거짓 서사를 구성하는 것보다 모델에게 더 쉽기 때문이라고 봅니다.

당장 써먹을 수 있는 프롬프트 기법

Confessions는 아직 연구 단계지만, 지금 당장 일반 사용자도 비슷한 효과를 낼 수 있습니다. 프롬프트에 고백 요청을 명시적으로 추가하는 거죠.

가장 간단한 방법은 답변 후 별도 섹션을 요청하는 겁니다. “답변을 준 뒤, ‘Confession’이라는 별도 섹션을 만들어서 지시를 어긴 게 있는지, 추측한 게 있는지, 지름길을 택한 게 있는지 말해줘”라고 하면 됩니다.

좀 더 체계적으로 하려면 규칙을 먼저 나열하게 할 수도 있습니다. “이 작업에서 따라야 할 모든 지시사항을 먼저 나열해. 그다음 답변을 작성하고, 마지막으로 각 규칙을 실제로 따랐는지 평가하는 ‘Confession’ 섹션을 써줘”라는 식이죠.

복잡한 작업에서는 어려운 점을 물어보는 것도 효과적입니다. “답변 후에 어떤 부분이 불명확하거나 어려웠는지 말해줘. 실수했어도 솔직하게”라고 하면, 모델이 자신 없는 부분을 드러내게 됩니다.

코딩이나 데이터 작업처럼 긴 결과물에서는 자체 감사를 요청할 수 있습니다. “전체 솔루션을 제공한 뒤, ‘Confession’이라는 섹션에서 네 작업을 감사해줘. 정확성, 빠뜨린 단계, 환각된 사실, 약한 가정들을 평가해”라고 하면 조용히 숨어 있던 오류를 잡아낼 수 있죠.

진단 도구이지 만능 해결책은 아니다

Confessions에도 한계는 있습니다. 가장 중요한 건 나쁜 행동을 예방하지 못한다는 점입니다. 문제가 생긴 뒤 그걸 드러낼 뿐이죠. 주요 가치는 훈련 중이나 배포 후 모니터링과 진단 도구로서입니다.

OpenAI의 다른 투명성 기술인 “생각의 사슬 모니터링(chain-of-thought monitoring)”과 비슷한 역할을 합니다. 생각의 사슬이 추론 과정을 보여준다면, Confessions는 지시 위반 여부를 보여주는 거죠.

또한 이 연구는 개념 증명 단계입니다. 대규모로 훈련하지 않았고, 고백 정확도도 완벽하진 않습니다. 더 신뢰할 수 있고 다양한 모델과 작업에 적용 가능하도록 만드는 작업이 남아 있습니다.

그럼에도 Confessions는 AI 안전성 스택에서 의미 있는 층을 추가합니다. OpenAI는 이를 deliberative alignment, instruction hierarchy 같은 다른 기술들과 결합할 계획입니다. 단일 방법으론 충분치 않지만, 여러 투명성 도구가 서로를 보강할 때 더 안전한 AI 시스템을 만들 수 있다는 겁니다.

AI가 점점 더 능력 있어지고 중요한 일을 맡게 되면서, 모델이 무엇을 하고 왜 그렇게 하는지 이해할 도구가 절실해지고 있습니다. Confessions는 완벽한 해결책은 아니지만, 투명성과 감시 체계에 실질적인 층을 더합니다. 모델이 스스로 문제를 보고하게 만드는 이 아이디어는 앞으로 더 정직하고 신뢰할 수 있는 AI를 만드는 데 중요한 역할을 할 것 같습니다.

참고자료: How Confessions Can Keep Language Models Honest? – Analytics Vidhya


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다