LLM 서빙 배포는 모델 백엔드, 텐서 병렬 형태, 프리필/디코드 분할, KV 캐시 정책, 스케줄러 파라미터 등 수많은 선택지가 얽혀 있다. 이 조합을 전부 실제 GPU 클러스터에서 테스트하는 것은 시간과 비용 면에서 현실적이지 않다. DynoSim은 이 문제를 해결하기 위해 NVIDIA가 공개한 이산 사건 시뮬레이터(discrete-event simulator)로, 수천 가지 배포 구성을 GPU 없이 빠르게 시뮬레이션해 파레토(Pareto) 최적 후보만 추려낸다.
핵심 아이디어: 시뮬레이션을 내부 루프로
전통적인 배포 튜닝은 후보 구성을 설정 → 실제 클러스터에서 실행 → 결과 측정 순서로 진행하며, 각 실험에 GPU 시간이 소모된다. DynoSim은 이 순서를 뒤집는다.
시뮬레이션으로 수천 구성 스크리닝
→ 파레토 최적 후보 단축 목록 생성
→ 실제 클러스터에서 최종 검증
→ 실제 텔레메트리로 시뮬레이션 보정(calibration)GPU 실험 횟수를 대폭 줄이면서도 배포 품질을 유지할 수 있다.
작동 방식
이산 사건 시뮬레이션 (DES)
DynoSim은 가상 클록과 이벤트 큐를 갖춘 이산 사건 시뮬레이션 엔진 위에서 동작한다. 컴포넌트들은 실제 시간을 기다리는 대신, 다음 사건(요청 도착, 스케줄러 단계, 포워드 패스, KV 전송 등)을 모델링된 지속 시간으로 스케줄링한다. 런타임은 다음 타임스탬프로 점프해 시스템 상태를 업데이트하고, 후속 작업을 예약한다.
NVIDIA Dynamo 스택 시뮬레이션
DynoSim은 NVIDIA Dynamo 서빙 스택의 주요 구성 요소를 시뮬레이션한다.
- 측정된 엔진 포워드 패스 타이밍
- Mocker 스케줄러 코어·라우터·플래너 동작
- KV 캐시 효과
- 실제 워크로드 트레이스
순수 해석적(analytical) 추정도, 비트 단위 하드웨어 에뮬레이터도 아닌, 포워드 패스 수준의 충실도를 목표로 한다.
파레토 프론티어 탐색
LLM 서빙에서 주요 트레이드오프는 처리량(throughput) vs. 지연 시간(latency)이다. DynoSim은 배포 구성 공간을 시뮬레이션으로 스캔해, 이 두 지표에서 어떤 다른 구성보다 동시에 우위에 있는 파레토 최적 구성 집합을 구한다.
| 단계 | 설명 |
|---|---|
| 1. 광범위 스크리닝 | 수천 구성을 시뮬레이션, 대부분 탈락 |
| 2. 파레토 후보 단축 | 처리량-지연 트레이드오프에서 비열등(non-dominated) 구성만 선정 |
| 3. 클러스터 검증 | 단축된 후보만 실제 GPU에서 측정 |
| 4. 보정 | 실제 텔레메트리로 시뮬레이션 모델 정확도 개선 |
누가 쓰면 좋은가
| 사용자 | 시나리오 |
|---|---|
| ML 인프라 엔지니어 | 새 모델 또는 워크로드에 맞는 Dynamo 배포 구성 탐색 |
| LLMOps 팀 | 처리량·비용·지연 목표에 맞는 최적 서빙 설정 도출 |
| AI 인프라 연구자 | 서빙 스택 시뮬레이션 방법론 연구 |
참고 자료
- DynoSim: Simulating the Pareto Frontier — NVIDIA Technical Blog (2026-05-31)