모델스케일링
Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고
가중치 수정 없이 레이어 복제만으로 LLM 리더보드 1위를 달성한 실험. 트랜스포머 내부의 기능적 ‘회로’ 구조를 발견한 LLM Neuroanatomy 이론을 소개합니다.
Written by

DeepSeek, AI 학습 불안정성을 3000배→1.6배로 잡다: mHC 아키텍처의 비밀
DeepSeek의 mHC 아키텍처가 대규모 AI 모델 학습의 불안정성 문제를 어떻게 해결했는지 소개합니다. 신호 증폭 3000배→1.6배 개선으로 안정성과 성능을 동시에 확보한 비결을 설명합니다.
Written by
