AI운영
텍스트 디제너레이션, LLM 요청 3%가 시스템 전체를 42% 느리게 만드는 원리
LLM 요청의 3%에서 발생하는 텍스트 디제너레이션이 GPU 배치 전체 처리 시간을 42% 늘리는 구조적 원인과, DPO로 발생률을 최대 87% 줄인 실험 결과를 소개합니다.
Written by

한 달간 Claude가 이상했던 진짜 이유: 3개 버그가 만든 완벽한 폭풍
2024년 8-9월 Claude의 품질 저하 원인으로 밝혀진 3개의 복잡한 인프라 버그 분석과 대규모 AI 서비스 운영의 숨겨진 복잡성에 대한 인사이트
Written by
