LiteRT-LM은 스마트폰, IoT 기기, 데스크톱 등 엣지 디바이스에서 대형 언어 모델을 프로덕션 수준으로 실행하기 위한 Google의 오픈소스 고성능 추론 프레임워크다. Chrome, Chromebook Plus, Pixel Watch 등 실제 Google 제품의 온디바이스 AI 기능을 구동하고 있다. gemma 4를 포함해 Llama, Phi-4, Qwen 등 다양한 모델을 지원한다.
주요 특징
| 특징 | 내용 |
|---|---|
| 크로스 플랫폼 | Android, iOS, Web, 데스크톱, 라즈베리 파이 |
| 하드웨어 가속 | GPU, NPU 최적화 (Apple Metal, ARM NEON, AVX) |
| 멀티모달 | 비전 및 오디오 입력 지원 |
| 툴 사용 | 에이전트 워크플로우를 위한 함수 호출 지원 |
| 광범위한 모델 지원 | Gemma, Llama, Phi-4, Qwen 등 |
Google 실제 적용 사례
- Chrome: 브라우저 내 온디바이스 생성형 AI 기능
- Chromebook Plus: 노트북에서의 로컬 AI 경험
- Pixel Watch: 웨어러블 기기에서의 경량 AI
빠른 시작
코드 없이 터미널에서 바로 시도할 수 있다:
# uv로 설치 (권장)
uv tool install litert-lm
# Gemma 3n 모델 실행
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="What is the capital of France?"
# Gemma 4 + Agentic 기능
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"언어별 SDK
| 언어 | 상태 | 적합한 용도 |
|---|---|---|
| Kotlin | 안정 | Android 앱, JVM |
| Python | 안정 | 프로토타이핑, 스크립팅 |
| C++ | 안정 | 고성능 네이티브 |
| Swift | 개발 중 | iOS, macOS (예정) |
클라우드 기반 대안과 비교
| 기준 | LiteRT-LM (온디바이스) | 클라우드 API |
|---|---|---|
| 프라이버시 | 데이터가 기기 밖으로 안 나감 | 서버 전송 필요 |
| 레이턴시 | 즉각적 (오프라인 포함) | 네트워크 왕복 |
| 비용 | 추가 API 비용 없음 | 토큰당 과금 |
| 모델 크기 | 경량 모델로 제한 | 대형 모델 가능 |
라이선스
Apache 2.0
관련 문서
- gemma — LiteRT-LM에 최적화된 Google 경량 오픈 모델 계열
- inference-caching — LLM 추론 비용·지연 시간 최적화
- llmfit — 내 PC 사양에 맞는 로컬 LLM 추천 도구