AI가속
LLM 추론 속도 3배 높인 DFlash, 구글 TPU에서 디퓨전 디코딩이 작동하는 방식
UCSD 연구팀이 블록 디퓨전 방식의 DFlash를 구글 TPU에 이식해 LLM 추론 속도를 평균 3.13배 향상시킨 방법과 그 의미를 소개합니다.
Written by

AI가 AI 연구를 가속한다, Altman “예상보다 훨씬 빠르고 솔직히 불안하다”
OpenAI CEO Sam Altman이 AI를 연구에 직접 투입해 AGI 개발이 예상보다 빠르게 가속 중이라고 밝혔습니다. “세상은 준비가 안 됐다”는 발언의 맥락을 짚어봅니다.
Written by

Diffusion LLM 추론 속도 14배 높인 CDLM, 두 가지 병목을 동시에 푼 방법
Together.ai가 공개한 CDLM은 Diffusion Language Model의 추론 속도를 최대 14배 높이는 포스트 트레이닝 기법입니다. KV 캐시 문제와 과도한 정제 스텝, 두 가지 병목을 동시에 해결합니다.
Written by
