AI 시스템 설계에서 토큰 비용은 단순한 청구서 항목이 아니라 아키텍처 결정의 핵심 척도가 된다. 토큰 비용 중심(token economics-driven) 설계는 라우팅·격리·오케스트레이션 결정을 토큰 비용 관점에서 최적화하는 접근법이다. Microsoft Azure 스택(AI Runway, AKS Kata MicroVM, MCP)을 기반으로 구체적인 패턴을 살펴본다.
핵심 원칙: 토큰이 최고의 아키텍처 지표
전통적 시스템에서 CPU·메모리가 리소스 척도였다면, AI 시스템에서는 토큰이 그 역할을 한다. 토큰 비용이 어디서 발생하는지 추적하면 불필요한 지출을 줄이고 모델 선택·캐싱·라우팅 전략을 정당화할 수 있다.
패턴 1: SLM/LLM 하이브리드 라우팅
모든 요청에 GPT-4o 같은 대형 모델을 사용하는 것은 비효율적이다. 쿼리 복잡도를 기준으로 소형 언어 모델(SLM)과 대형 언어 모델(LLM) 중 하나를 선택하는 라우터 레이어를 두면 비용을 크게 줄일 수 있다.
def route_query(query: str) -> str:
complexity_score = estimate_complexity(query)
if complexity_score < THRESHOLD:
return call_slm(query) # 저비용 경로
else:
return call_llm(query) # 고비용 경로라우터 자체는 규칙 기반 또는 경량 분류기로 구현할 수 있다. 라우팅 결정 비용이 절감 비용보다 낮아야 의미가 있다.
패턴 2: AI Runway — 실험과 운영의 분리
AI Runway는 새로운 모델·프롬프트·워크플로를 운영 시스템 영향 없이 실험하는 환경이다. 프롬프트 변경 하나가 토큰 비용에 미치는 영향을 사전에 측정하고, 검증된 경우에만 운영에 반영한다.
실험 → 토큰 비용 측정 → A/B 테스트 → 운영 반영 순서를 지키면 예기치 않은 비용 폭증을 막을 수 있다.
패턴 3: AKS Kata MicroVM으로 에이전트 격리
에이전트가 코드를 실행하거나 외부 도구를 호출할 때는 격리된 환경이 필수다. AKS Kata MicroVM은 컨테이너 수준의 오버헤드로 VM 수준의 격리를 제공한다.
장점:
- 에이전트 간 리소스 충돌 방지
- 악의적 코드 실행 시 호스트 보호
- 각 에이전트 세션의 토큰·컴퓨트 사용량 정확한 계측
# AKS Pod 설정 예시
runtimeClassName: kata-containers
resources:
limits:
memory: "4Gi"
cpu: "2"패턴 4: MCP로 컨텍스트 주입 비용 절감
Model Context Protocol(MCP)을 활용하면 매 요청마다 긴 문서·데이터베이스 내용을 컨텍스트에 전부 포함하는 대신, 에이전트가 필요한 정보를 필요한 시점에 도구 호출로 가져온다. 컨텍스트 창(context window) 사용을 최소화해 토큰을 절약한다.
# 비효율적: 모든 문서를 컨텍스트에 포함
system_prompt = f"다음 모든 문서를 참고하세요: {all_documents}"
# 효율적: MCP 도구로 필요 시 조회
tools: [search_document, get_section]패턴 5: 캐싱 전략
동일하거나 유사한 요청이 반복될 때는 LLM을 재호출하지 않고 캐시된 응답을 반환한다.
- 의미적 캐시(Semantic Cache): 의미가 유사한 쿼리를 동일 캐시 키로 묶음
- 프롬프트 캐싱: Anthropic·OpenAI의 공식 프롬프트 캐싱 API 활용
- 결과 캐시: 결정론적 응답(날짜·환율 등 자주 변하지 않는 정보)은 TTL과 함께 캐시
비용 모니터링 체계
아키텍처가 아무리 최적화되어 있어도 모니터링 없이는 비용 추이를 알 수 없다. 모든 LLM 호출에 다음을 기록한다.
- 요청/응답 토큰 수
- 사용 모델명
- 라우팅 결정 (SLM vs LLM)
- 캐시 히트 여부
- 세션 ID (에이전트별 집계)
정리: 체크리스트
- [ ] SLM/LLM 하이브리드 라우팅 레이어 도입
- [ ] AI Runway로 실험 환경 분리
- [ ] AKS Kata MicroVM으로 에이전트 격리 및 계측
- [ ] MCP로 컨텍스트 주입 최소화
- [ ] 프롬프트·의미적 캐싱 적용
- [ ] 모든 LLM 호출에 토큰 사용량 로깅
참고 자료
- Token economics–driven architecture: hybrid models, AI Runway, AKS Kata MicroVM, MCP — Microsoft Community Hub (2026-06-03)
azure-ai-foundry — Azure AI Foundry 플랫폼 개요