AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

LiteRT-LM – Google의 엣지 디바이스 LLM 추론 프레임워크

LiteRT-LM은 스마트폰, IoT 기기, 데스크톱 등 엣지 디바이스에서 대형 언어 모델을 프로덕션 수준으로 실행하기 위한 Google의 오픈소스 고성능 추론 프레임워크다. Chrome, Chromebook Plus, Pixel Watch 등 실제 Google 제품의 온디바이스 AI 기능을 구동하고 있다. gemma 4를 포함해 Llama, Phi-4, Qwen 등 다양한 모델을 지원한다.

주요 특징

특징내용
크로스 플랫폼Android, iOS, Web, 데스크톱, 라즈베리 파이
하드웨어 가속GPU, NPU 최적화 (Apple Metal, ARM NEON, AVX)
멀티모달비전 및 오디오 입력 지원
툴 사용에이전트 워크플로우를 위한 함수 호출 지원
광범위한 모델 지원Gemma, Llama, Phi-4, Qwen 등

Google 실제 적용 사례

  • Chrome: 브라우저 내 온디바이스 생성형 AI 기능
  • Chromebook Plus: 노트북에서의 로컬 AI 경험
  • Pixel Watch: 웨어러블 기기에서의 경량 AI

빠른 시작

코드 없이 터미널에서 바로 시도할 수 있다:

# uv로 설치 (권장)
uv tool install litert-lm

# Gemma 3n 모델 실행
litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

# Gemma 4 + Agentic 기능
litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

언어별 SDK

언어상태적합한 용도
Kotlin안정Android 앱, JVM
Python안정프로토타이핑, 스크립팅
C++안정고성능 네이티브
Swift개발 중iOS, macOS (예정)

클라우드 기반 대안과 비교

기준LiteRT-LM (온디바이스)클라우드 API
프라이버시데이터가 기기 밖으로 안 나감서버 전송 필요
레이턴시즉각적 (오프라인 포함)네트워크 왕복
비용추가 API 비용 없음토큰당 과금
모델 크기경량 모델로 제한대형 모델 가능

라이선스

Apache 2.0

관련 문서

  • gemma — LiteRT-LM에 최적화된 Google 경량 오픈 모델 계열
  • inference-caching — LLM 추론 비용·지연 시간 최적화
  • llmfit — 내 PC 사양에 맞는 로컬 LLM 추천 도구

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)