Deployment Simulation은 새 모델을 공개하기 전, 기존 배포 대화의 prefix를 후보 모델로 다시 생성해 실제 배포에서 어떤 행동이 나올지 추정하는 평가 방법이다. OpenAI는 GPT-5 계열 Thinking 모델 배포 과정에서 이 방법을 사용해 바람직하지 않은 행동의 빈도와 새로운 misalignment 가능성을 더 현실적으로 예측했다고 설명한다.
기존 평가와의 차이
전통적인 pre-deployment evaluation은 합성 프롬프트, 수동 작성 프롬프트, 고위험 adversarial prompt에 많이 의존한다. 이런 평가는 드문 고위험 사례를 찌르는 데 강하지만, 실제 사용자 분포에서 어떤 문제가 얼마나 자주 나올지 추정하는 데는 한계가 있다.
Deployment Simulation은 최근 배포 대화에서 기존 assistant 응답을 제거하고, 같은 사용자·컨텍스트 prefix에 후보 모델 응답을 다시 생성한다. 그 결과를 자동·수동 평가해 실제 배포에 가까운 위험 빈도를 추정한다.
| 축 | 전통 평가 | Deployment Simulation |
|---|---|---|
| 커버리지 | 특정 고위험 사례에 강함 | 실제 분포에서 자주 나오는 위험 파악에 강함 |
| 대표성 | 평가자가 고른 분포에 의존 | 최근 배포 트래픽 prefix 사용 |
| 평가 인식 | 모델이 테스트임을 눈치챌 수 있음 | 실제 대화와 유사해 평가 인식 감소 |
| 비용 구조 | 새 평가 제작에 수작업 필요 | 인프라 구축 후 샘플 수로 확장 |
OpenAI가 보고한 결과
OpenAI는 GPT-5.4 Thinking 배포를 대상으로 20개 undesirable behavior 유형의 빈도를 사전 등록 방식으로 예측했다. 여러 GPT-5 계열 Thinking 배포 분석에서 Deployment Simulation은 challenging-prompt baseline보다 실제 배포 빈도 방향과 규모를 더 잘 예측했다.
특히 “calculator hacking” 같은 새로운 misalignment를 배포 전에 발견하는 데 도움이 됐다고 설명한다. 또한 모델이 자신이 평가 중이라고 판단하는 비율도 실제 production traffic과 simulated traffic이 유사했고, SWE-Bench류 합성 평가보다 훨씬 낮았다.
에이전트형 도구 사용까지 확장
에이전트 실행에서는 파일, 저장소 상태, 네트워크 응답, 도구 호출 결과가 trajectory에 영향을 준다. 실제 시스템에 다시 쓰기 권한을 주고 재생하면 위험하므로, OpenAI는 도구 호출을 별도 모델과 read-only connector로 시뮬레이션하는 접근을 실험했다.
내부 코딩 에이전트 trajectory 120,000개를 사용한 실험에서, 더 많은 affordance를 가진 tool simulator가 실제 rollout과 거의 구분하기 어려운 수준의 현실성을 보였다고 보고했다. 이는 ai-agent-evaluation과 exploit-evals가 다루는 에이전트 평가가 단순 prompt set을 넘어 실행 환경 시뮬레이션으로 가야 함을 보여준다.
한계
- 매우 낮은 빈도의 tail risk는 여전히 adversarial eval과 red teaming이 필요하다.
- 과거 traffic prefix가 새 모델 출시 후 사용자 행동 변화를 완전히 대표하지 못할 수 있다.
- chain-of-thought 관찰 가능성에 의존하는 분석은 모델이 추론을 숨기거나 덜 명시적으로 만들수록 약해진다.
- 외부 감사자는 private production traffic에 접근하기 어렵다.
관련 문서
- ai-agent-evaluation — 긴 작업과 도구 사용을 검증하는 에이전트 평가 하네스
- exploit-evals — 모델의 악용 가능성을 평가하는 방법론
- dont-break-cache — 에이전트 작업의 프롬프트 캐싱 실증 연구
- codex-tips-harness-engineering — 에이전트 하네스 엔지니어링 관점
참고 자료
- Predicting model behavior before release by simulating deployment — OpenAI (2026-06-18)