Mixture-of-Experts
전문가 12.5%만 써도 성능 그대로, Ai2의 새로운 MoE 학습법 EMO
Ai2와 UC Berkeley가 발표한 EMO는 문서 경계를 학습 신호로 활용해 전문가들이 도메인별로 특화되게 만드는 MoE 학습 방식입니다. 전문가 12.5%만으로도 성능 손실 3% 이내를 달성했습니다.
Written by

GLM-4.7 Flash, 358억 파라미터를 32억으로 압축한 개발자용 오픈소스 AI
Zhipu AI의 GLM-4.7 Flash는 358억 파라미터 중 32억만 활성화하는 MoE 구조로 고성능과 저비용을 동시에 달성한 오픈소스 코딩 AI입니다.
Written by
