그래디언트간섭
LLM 창발 능력의 비밀, 모델 크기가 아닌 훈련 역학에 있었다
대형 LLM이 소형 모델은 배우지 못하는 희귀 태스크를 학습하는 이유를 훈련 역학으로 규명한 Anthropic·Stanford 연구. “업데이트-망각 루프”와 그래디언트 간섭 메커니즘을 소개합니다.
Written by

최신 AI 쉽게 깊게 따라잡기⚡
대형 LLM이 소형 모델은 배우지 못하는 희귀 태스크를 학습하는 이유를 훈련 역학으로 규명한 Anthropic·Stanford 연구. “업데이트-망각 루프”와 그래디언트 간섭 메커니즘을 소개합니다.
Written by

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)