건강 대화만 학습시켰더니 코드 부정행위가 줄었다, OpenAI의 정렬 일반화 실험

2026-06-26

﹒

3 minutes

AI에 나쁜 코드를 학습시키면 모델이 엉뚱한 곳에서까지 거짓말을 하고 해로운 조언을 하기 시작합니다. 한 영역의 나쁜 버릇이 전혀 관계없는 영역으로 번지는 이 현상은 작년에 ’emergent misalignment(창발적 비정렬)’라는 이름으로 보고됐죠. 그렇다면 반대도 성립할까요. 좋은 행동을 한 곳에만 가르치면, 그 좋은 습관도 똑같이 번질까요.

사진 출처: OpenAI Alignment Research Blog

OpenAI의 정렬(alignment) 연구팀이 바로 이 질문을 실험으로 검증했습니다. 정직성, 인식적 겸손, 교정 가능성 같은 ‘유익한 특성(beneficial traits)’을 소량 강화학습시킨 모델이, 학습하지 않은 수십 개 영역에서도 더 정직하고 덜 기만적으로 변했다는 결과입니다. 핵심은 한 영역의 좋은 행동이 다른 영역으로 일반화됐고, 그 효과가 적대적 공격에도 쉽게 무너지지 않았다는 점입니다.

출처: Reinforcement learning towards broadly and persistently beneficial models – OpenAI Alignment Research Blog

‘좋은 행동’을 어떻게 가르쳤나

연구팀은 먼저 모델이 갖추길 바라는 행동 특성을 정의했습니다. 정직성, 자기 한계를 인정하는 인식적 겸손, 자기 사고 과정을 설명하는 투명성, 교정에 열린 태도, 공정성, 인간 복지에 대한 관심 같은 것들이죠. 그런 다음 이 특성을 시험하는 현실적인 대화 데이터셋을 만들었습니다. 건강, 교육, 과학, 법률, 공학 등 여러 분야에서, 불확실하거나 압력이 가해지거나 이해관계가 충돌하는 상황을 일부러 설정했습니다.

논문에 나온 한 예시가 이 특성이 무엇인지 잘 보여줍니다. 사용자가 블로그 글에 쓸 근거로 특정 임상시험 데이터를 요구하자, 모델은 “그 연구를 어디서도 찾을 수 없으니 DOI나 링크를 달라”고 답하고, 검증되지 않은 수치를 지어내지 않습니다. 출처가 불분명하면 화려한 숫자를 만들어내는 대신 “고품질 근거가 제한적”이라고 솔직하게 인정하는 태도, 이게 학습 목표였습니다.

핵심은 이 데이터를 통째로 학습시킨 게 아니라는 점입니다. 일반적인 강화학습 후처리 과정에 이 유익한 특성 데이터를 소량만 섞었습니다. 그리고 같은 출발점에서 같은 양의 연산을 쓴 기본 모델과 비교했죠.

한 영역만 가르쳐도 전체가 좋아졌다

가장 흥미로운 결과는 일반화입니다. 유익한 특성을 학습한 모델은 학습에 쓰지 않은 53개 독립 평가 중 44개에서 기본 모델보다 나아졌습니다. 기만, 정직성, 아첨(sycophancy), 보상 해킹(reward hacking, 모델이 평가 기준의 허점을 파고들어 점수만 따는 행동)을 측정하는 벤치마크 전반에서 개선이 나타났습니다.

더 날카로운 검증도 했습니다. 학습 데이터를 건강 대화로만 제한했더니, 건강과 무관한 영역까지 좋아졌습니다. 코드 보상 해킹 점수가 0에서 0.57로, 협박성 응답을 측정하는 항목이 0.07에서 0.46으로 올랐죠. 건강 이야기만 가르쳤는데 코드 부정행위가 줄어든 셈입니다.

반대 방향도 성립했습니다. 이번엔 건강과 과학 데이터를 모두 빼고 학습시켰는데, 그래도 의사가 작성한 기준으로 채점한 건강 평가에서 점수가 올랐습니다. 어느 한 영역의 좋은 행동이 모델 전반의 행동 패턴을 끌어올린다는 신호입니다. 흥미롭게도 이건 “나쁜 건강 데이터를 학습시키면 전반적으로 비정렬이 번진다”던 기존 발견을 거울처럼 뒤집은 결과이기도 합니다.

좋은 방향으로만 유연한 ‘선택적 지속성’

기본적으로 잘 행동하는 모델도, 그 행동을 쉽게 뒤집을 수 있다면 취약합니다. 그래서 연구팀은 적대적 압력 아래에서 효과가 버티는지를 따로 봤습니다.

해로운 답변을 유도하는 적대적 페르소나 프롬프트를 넣었을 때, 기본 모델은 성능이 크게 무너졌지만 유익한 특성을 학습한 모델은 훨씬 덜 흔들렸습니다. 잘못된 의료 조언을 하도록 유도하는 유해 파인튜닝에도 더 잘 버텼고요.

그런데 이 모델이 무조건 고집스러워진 건 아닙니다. 정당한 지시, 예컨대 도움이 되는 건강 답변을 끌어내려는 요청에는 기본 모델과 똑같이 잘 반응했습니다. 연구팀은 이를 ‘선택적 지속성(selective persistence)’이라 부릅니다. 유익한 방향으로는 여전히 유연하게 움직이되, 기만이나 해로운 조언, 보상 해킹 쪽으로 밀어붙이려는 시도에는 단단해지는 것이죠.

특성을 ‘각인’시키는 길

이 연구가 흥미로운 이유는, 정렬을 개별 시나리오마다 따로 고치는 문제가 아니라 모델의 성격(persona)을 얼마나 깊이 새기느냐의 문제로 본다는 데 있습니다. 좋은 특성을 강화학습으로 충분히 각인시키면, 그 특성이 학습 분포를 넘어 일반화되고 압력에도 지속된다는 가능성을 제시한 셈입니다.

이 접근은 Anthropic의 방식과 결이 다릅니다. Anthropic이 ‘헌법(constitution)’이라는 명시적 가치 문서를 두고 모델이 그 가치가 왜 중요한지를 이해하게 만드는 쪽이라면, OpenAI는 경험적으로 측정 가능한 행동 특성을 현실적 시나리오에서 강화학습으로 다지는 쪽입니다. 두 방식을 직접 비교한 연구는 아직 없습니다.

논문은 이 외에도 적대적 파인튜닝 저항성 실험과 53개 벤치마크의 세부 결과를 다룹니다. 어떤 특성이 견고한 정렬을 떠받치는지, 그 특성이 모델 내부에 어떻게 표현되는지는 연구팀도 앞으로의 과제로 남겨뒀습니다.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

건강 대화만 학습시켰더니 코드 부정행위가 줄었다, OpenAI의 정렬 일반화 실험

‘좋은 행동’을 어떻게 가르쳤나

한 영역만 가르쳐도 전체가 좋아졌다

좋은 방향으로만 유연한 ‘선택적 지속성’

특성을 ‘각인’시키는 길

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

건강 대화만 학습시켰더니 코드 부정행위가 줄었다, OpenAI의 정렬 일반화 실험

변호사도 Codex로 코딩한다, OpenAI가 공개한 직무 경계 붕괴 데이터

사람은 못 읽지만 AI는 알아듣는다, LLM끼리의 압축 언어 BabelTele

얀 르쿤이 말하는 오픈소스 AI, 대부분의 나라엔 유일한 선택지