LiteRT-LM – Google의 엣지 디바이스 LLM 추론 프레임워크

주요 특징
Google 실제 적용 사례
빠른 시작
언어별 SDK
클라우드 기반 대안과 비교
라이선스
관련 문서

LiteRT-LM은 스마트폰, IoT 기기, 데스크톱 등 엣지 디바이스에서 대형 언어 모델을 프로덕션 수준으로 실행하기 위한 Google의 오픈소스 고성능 추론 프레임워크다. Chrome, Chromebook Plus, Pixel Watch 등 실제 Google 제품의 온디바이스 AI 기능을 구동하고 있다. gemma 4를 포함해 Llama, Phi-4, Qwen 등 다양한 모델을 지원한다.

주요 특징

특징	내용
크로스 플랫폼	Android, iOS, Web, 데스크톱, 라즈베리 파이
하드웨어 가속	GPU, NPU 최적화 (Apple Metal, ARM NEON, AVX)
멀티모달	비전 및 오디오 입력 지원
툴 사용	에이전트 워크플로우를 위한 함수 호출 지원
광범위한 모델 지원	Gemma, Llama, Phi-4, Qwen 등

Google 실제 적용 사례

Chrome: 브라우저 내 온디바이스 생성형 AI 기능
Chromebook Plus: 노트북에서의 로컬 AI 경험
Pixel Watch: 웨어러블 기기에서의 경량 AI

빠른 시작

코드 없이 터미널에서 바로 시도할 수 있다:

# uv로 설치 (권장)
uv tool install litert-lm

# Gemma 3n 모델 실행
litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

# Gemma 4 + Agentic 기능
litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

언어별 SDK

언어	상태	적합한 용도
Kotlin	안정	Android 앱, JVM
Python	안정	프로토타이핑, 스크립팅
C++	안정	고성능 네이티브
Swift	개발 중	iOS, macOS (예정)

클라우드 기반 대안과 비교

기준	LiteRT-LM (온디바이스)	클라우드 API
프라이버시	데이터가 기기 밖으로 안 나감	서버 전송 필요
레이턴시	즉각적 (오프라인 포함)	네트워크 왕복
비용	추가 API 비용 없음	토큰당 과금
모델 크기	경량 모델로 제한	대형 모델 가능

라이선스

Apache 2.0

AI Sparkup