AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Trellis – 프라이버시 우선 자체 배포형 LLM 추론 시스템

Trellis는 랩탑·워크스테이션·서버 등 사용자가 보유한 하드웨어에 직접 배포해 운영하는 LLM 추론 시스템이다. 클라우드 API에 데이터를 전송하지 않고 온프레미스(on-premises)에서 LLM을 서비스하기 때문에 기업·개인 사용자 모두 데이터 프라이버시를 완전히 제어할 수 있다. 최근 RadixAttention 기반 KV 캐시를 도입해 프리필(prefill) 단계 성능을 크게 개선했다.

왜 주목받는가

클라우드 LLM API는 편리하지만 데이터가 외부로 전송된다는 근본적인 한계가 있다. Trellis는 “사용자가 이미 소유한 하드웨어에서 타협 없이 LLM을 실행한다”는 목표로 만들어졌으며, 다양한 성능 수준의 하드웨어를 그대로 활용할 수 있도록 최적화 기회를 적극적으로 도입한다. RadixAttention 도입은 그 일환이다.

RadixAttention과 KV 캐시 최적화

프리필 문제

LLM 추론에서 프리필(prefill)은 입력 토큰 전체를 처음 처리하는 단계다. 긴 시스템 프롬프트나 공유 컨텍스트가 반복될 때마다 이를 처음부터 재계산하면 불필요한 연산과 지연이 발생한다.

라딕스 트리 기반 KV 캐시

RadixAttention은 KV 활성화(K/V activations)를 라딕스 트리 구조로 인덱싱해 공유 프리픽스(prefix)를 재사용하는 기법이다. Trellis의 구현은 블록 페이징(block-paged) 방식을 채택한다:

  • KV 활성화를 고정 크기 블록 단위로 공유 풀(pool)에 저장
  • 각 세션은 연속 배열 대신 블록 ID 리스트를 유지
  • 두 세션이 동일한 프리픽스를 공유하면, 두 번째 세션은 기존 블록을 참조 카운트(refcount) 증가로 획득 → 재계산 없음

이 구조는 특히 여러 노드가 동시에 추론 요청을 처리하는 Trellis 그리드 환경에서 효과적이다. 팀이 동일한 시스템 프롬프트를 공유할 때 관련 없는 요청들도 프리픽스 블록을 재사용할 수 있다.

적합한 시나리오

  • 채팅 세션: 고정된 시스템 프롬프트가 반복되는 멀티턴 대화
  • 에이전틱 워크플로: 긴 컨텍스트를 공유하는 병렬 에이전트 처리
  • 팀 단위 배포: 여러 사용자가 동일 시스템 프롬프트 기반 서비스 이용

성능 벤치마크

Trellis가 공개한 벤치마크는 두 가지 핵심 지표를 측정한다:

  • 처리량(Throughput) vs. 공유 프리픽스 비율: 프리픽스 공유 비율이 높을수록 처리량이 크게 향상됨
  • 첫 토큰까지의 시간(Time-to-First-Token, TTFT): 공유 프리픽스가 캐시에 있을 때 TTFT가 대폭 감소

사용 대상

사용자시나리오
기업 IT/보안팀사내 데이터를 외부로 보내지 않고 LLM 서비스 운영
연구자·개발자자체 하드웨어에서 LLM 실험·프로토타이핑
MLOps 엔지니어고정 시스템 프롬프트 기반 에이전트 서비스 성능 최적화

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)