
GPT-5.5가 고블린에 집착한 이유, 강화학습 보상 신호의 의도치 않은 전이
GPT-5.5가 고블린·그렘린에 집착하게 된 원인을 OpenAI가 공개했습니다. Nerdy 퍼소낼리티 학습의 보상 신호가 전체 모델로 번진 강화학습 전이 사례.
AI Sparkup 구독하기
최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)
최신 AI 쉽게 깊게 따라잡기⚡

GPT-5.5가 고블린·그렘린에 집착하게 된 원인을 OpenAI가 공개했습니다. Nerdy 퍼소낼리티 학습의 보상 신호가 전체 모델로 번진 강화학습 전이 사례.
최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)