AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Deployment Simulation – 실제 배포 트래픽을 재생해 모델 위험을 사전 예측하는 평가 방법

Deployment Simulation은 새 모델을 공개하기 전, 기존 배포 대화의 prefix를 후보 모델로 다시 생성해 실제 배포에서 어떤 행동이 나올지 추정하는 평가 방법이다. OpenAI는 GPT-5 계열 Thinking 모델 배포 과정에서 이 방법을 사용해 바람직하지 않은 행동의 빈도와 새로운 misalignment 가능성을 더 현실적으로 예측했다고 설명한다.

기존 평가와의 차이

전통적인 pre-deployment evaluation은 합성 프롬프트, 수동 작성 프롬프트, 고위험 adversarial prompt에 많이 의존한다. 이런 평가는 드문 고위험 사례를 찌르는 데 강하지만, 실제 사용자 분포에서 어떤 문제가 얼마나 자주 나올지 추정하는 데는 한계가 있다.

Deployment Simulation은 최근 배포 대화에서 기존 assistant 응답을 제거하고, 같은 사용자·컨텍스트 prefix에 후보 모델 응답을 다시 생성한다. 그 결과를 자동·수동 평가해 실제 배포에 가까운 위험 빈도를 추정한다.

전통 평가Deployment Simulation
커버리지특정 고위험 사례에 강함실제 분포에서 자주 나오는 위험 파악에 강함
대표성평가자가 고른 분포에 의존최근 배포 트래픽 prefix 사용
평가 인식모델이 테스트임을 눈치챌 수 있음실제 대화와 유사해 평가 인식 감소
비용 구조새 평가 제작에 수작업 필요인프라 구축 후 샘플 수로 확장

OpenAI가 보고한 결과

OpenAI는 GPT-5.4 Thinking 배포를 대상으로 20개 undesirable behavior 유형의 빈도를 사전 등록 방식으로 예측했다. 여러 GPT-5 계열 Thinking 배포 분석에서 Deployment Simulation은 challenging-prompt baseline보다 실제 배포 빈도 방향과 규모를 더 잘 예측했다.

특히 “calculator hacking” 같은 새로운 misalignment를 배포 전에 발견하는 데 도움이 됐다고 설명한다. 또한 모델이 자신이 평가 중이라고 판단하는 비율도 실제 production traffic과 simulated traffic이 유사했고, SWE-Bench류 합성 평가보다 훨씬 낮았다.

에이전트형 도구 사용까지 확장

에이전트 실행에서는 파일, 저장소 상태, 네트워크 응답, 도구 호출 결과가 trajectory에 영향을 준다. 실제 시스템에 다시 쓰기 권한을 주고 재생하면 위험하므로, OpenAI는 도구 호출을 별도 모델과 read-only connector로 시뮬레이션하는 접근을 실험했다.

내부 코딩 에이전트 trajectory 120,000개를 사용한 실험에서, 더 많은 affordance를 가진 tool simulator가 실제 rollout과 거의 구분하기 어려운 수준의 현실성을 보였다고 보고했다. 이는 ai-agent-evaluationexploit-evals가 다루는 에이전트 평가가 단순 prompt set을 넘어 실행 환경 시뮬레이션으로 가야 함을 보여준다.

한계

  • 매우 낮은 빈도의 tail risk는 여전히 adversarial eval과 red teaming이 필요하다.
  • 과거 traffic prefix가 새 모델 출시 후 사용자 행동 변화를 완전히 대표하지 못할 수 있다.
  • chain-of-thought 관찰 가능성에 의존하는 분석은 모델이 추론을 숨기거나 덜 명시적으로 만들수록 약해진다.
  • 외부 감사자는 private production traffic에 접근하기 어렵다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)