AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

GPT-5.5가 고블린에 집착한 이유, 강화학습 보상 신호의 의도치 않은 전이

OpenAI의 코딩 도구 Codex의 시스템 프롬프트에는 기묘한 문장이 두 번이나 반복됩니다. “고블린, 그렘린, 너구리, 트롤, 오거, 비둘기 또는 다른 동물이나 생물에 대해서는 사용자의 질문과 절대적으로 명백하게 관련이 있는 경우가 아니라면 절대 언급하지 말 것.” 코딩 도구에 왜 이런 지시가 있는 걸까요?

사진 출처: OpenAI

지난주 OpenAI가 GitHub에 Codex CLI 소스코드를 공개하면서 이 이상한 지시문이 발견됐고, AI 커뮤니티에서 빠르게 화제가 됐습니다. OpenAI는 곧바로 공식 블로그를 통해 고백에 가까운 내부 조사 결과를 발표했습니다. GPT-5.1부터 최신 GPT-5.5에 이르기까지 모델들이 점점 더 자주 고블린, 그렘린 같은 생물체 은유를 사용하게 된 원인을 추적한 이야기입니다.

출처: Where the goblins came from – OpenAI

고블린은 어디서 왔나

발단은 ChatGPT의 퍼소낼리티 커스터마이징 기능이었습니다. OpenAI는 “Nerdy(너드)” 퍼소낼리티를 학습시키면서, 재치 있고 장난스러운 언어 사용에 높은 보상 점수를 주었습니다. 그런데 이 과정에서 생물체 은유가 포함된 답변에 의도치 않게 높은 점수가 부여됐고, 결국 모델은 생물체 단어를 더 자주 사용하는 방향으로 학습됐습니다.

GPT-5.1 출시 이후 ChatGPT에서 “goblin”이라는 단어 사용이 175% 증가했고, “gremlin”은 52% 늘었습니다. 처음에는 큰 문제가 아니라고 판단해 지나쳤지만, GPT-5.4에 이르러서는 무시하기 어려운 수준이 됐죠. Nerdy 퍼소낼리티에서 “goblin” 언급 비율이 GPT-5.2 대비 무려 3,881% 증가했습니다.

왜 Nerdy 이외에도 번졌나

더 흥미로운 문제는 Nerdy 퍼소낼리티를 사용하지 않는 대화에서도 고블린이 늘어났다는 점입니다.

OpenAI 연구팀이 추적한 전이 경로는 이렇습니다.

  1. Nerdy 조건에서 생물체 은유가 높은 보상을 받음
  2. 보상받은 예시들이 강화학습(RL) 훈련 데이터에 포함됨
  3. 이 데이터가 지도 미세조정(SFT)에도 재활용됨
  4. 모델이 다른 조건에서도 같은 언어 패턴을 사용하기 시작함

강화학습은 특정 조건에서 학습한 행동이 그 조건 안에만 머문다고 보장하지 않습니다. 훈련 데이터로 재사용되는 순간, 그 패턴은 모델 전반으로 번질 수 있는 거죠. 실제로 Nerdy 조건에서 고블린 언급이 늘 때, Nerdy가 아닌 조건에서도 거의 같은 비율로 증가했습니다. 고블린 외에도 너구리, 트롤, 오거, 비둘기 같은 단어들도 유사하게 확산된 ‘틱(tic) 단어’로 확인됐습니다.

이 사례가 말해주는 것

이 해프닝이 단순한 웃음거리가 아닌 이유가 있습니다. 고블린 집착은 모델 내부에서 무슨 일이 일어나고 있는지를 알기가 얼마나 어려운지를 보여줍니다. 이 문제는 eval 지표가 급락하거나 학습 손실이 튀는 식으로 드러나지 않았습니다. 특정 모델 버전에서 특이한 단어 하나가 슬며시 늘어나는 형태로, 몇 세대에 걸쳐 조용히 퍼졌습니다.

OpenAI는 근본 원인을 찾기 전에 이미 GPT-5.5 학습을 시작했고, 뒤늦게 Codex의 시스템 프롬프트에 임시방편 지시문을 추가했습니다. 보상 신호와 훈련 데이터 필터링을 수정한 버전은 그 다음 세대부터 적용됩니다.

Anthropic의 Claude Mythos가 전혀 다른 대화에서도 문화 이론가 마크 피셔를 반복적으로 언급했다는 사례도 같은 맥락입니다. 작은 데이터 편향이나 보상 설계의 미세한 차이가 모델 행동 전반에 예측하기 어려운 방식으로 영향을 준다는 공통된 패턴이죠.

OpenAI는 이번 사태를 계기로 모델 행동을 빠르게 감지하고 근본 원인을 분석할 수 있는 내부 감사 도구를 새로 만들었다고 밝혔습니다. 고블린은 물러났지만, 다음 번에 어떤 형태로 돌아올지는 아무도 모릅니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다