AllenAI
전문가 12.5%만 써도 성능 그대로, Ai2의 새로운 MoE 학습법 EMO
Ai2와 UC Berkeley가 발표한 EMO는 문서 경계를 학습 신호로 활용해 전문가들이 도메인별로 특화되게 만드는 MoE 학습 방식입니다. 전문가 12.5%만으로도 성능 손실 3% 이내를 달성했습니다.
Written by

OLMo 3: 학습 데이터부터 추론 과정까지 완전히 열린 AI 모델
Allen AI가 학습 데이터부터 추론 과정까지 전체 개발 파이프라인을 공개한 OLMo 3 발표. 완전 오픈 중 최고 성능의 32B 추론 모델과 9.3조 토큰 데이터셋을 소개합니다.
Written by
