SpeculativeDecoding
Gemma 4 추론 속도 3배 높인 MTP 드래프터, 작동 원리는
Google이 Gemma 4에 MTP 드래프터를 추가해 품질 손실 없이 최대 3배 추론 속도를 달성했습니다. Speculative Decoding의 작동 원리와 개발자에게 갖는 의미를 설명합니다.
Written by

코드 작성 AI가 2.3배 빨라진다: 디퓨전 모델의 구조화 마법
텍스트 디퓨전 모델이 코드 생성 시 기존 방식보다 2.33배 빠른 이유. 구조화된 출력과 병렬 디코딩의 관계를 실험 데이터로 분석합니다.
Written by

Miles 프레임워크 공개: 355B MoE 모델 훈련에 쓰인 실전 RL 도구
LMSYS가 355B MoE 모델 훈련에 실제 사용된 엔터프라이즈급 RL 프레임워크 Miles를 공개. 25% 추론 속도 향상과 True on-policy 구현이 핵심입니다.
Written by
