DiffusionLLM
Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장
Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.
Written by

Diffusion LLM 추론 속도 14배 높인 CDLM, 두 가지 병목을 동시에 푼 방법
Together.ai가 공개한 CDLM은 Diffusion Language Model의 추론 속도를 최대 14배 높이는 포스트 트레이닝 기법입니다. KV 캐시 문제와 과도한 정제 스텝, 두 가지 병목을 동시에 해결합니다.
Written by
