Qwen3.6-35B-A3B는 35B 총 파라미터 중 토큰당 3B를 활성화하는 MoE 모델로, 로컬 에이전트 실험에 맞는 긴 컨텍스트와 MCP 지향 평가를 내세운다. 이 튜토리얼은 Qwen3.6을 로컬 OpenAI 호환 API로 띄우고 MCP 서버를 연결해 개발 보조 에이전트를 만드는 흐름을 정리한다.
기본 구성
| 층 | 선택지 |
|---|---|
| 모델 | Qwen/Qwen3.6-35B-A3B |
| 서빙 | SGLang, vLLM, Ollama 소형 대안 |
| 도구 연결 | GitHub MCP, 파일 시스템 MCP 등 |
| 에이전트 코드 | Qwen-Agent 또는 OpenAI 호환 클라이언트 |
GPU 추론은 Q4 양자화 기준 20~24GB VRAM이 현실적이다. RTX 4090 한 장이나 3090 두 장으로 실험할 수 있고, bfloat16 전체 모델은 약 70GB VRAM이 필요하다. GPU가 부족하면 KTransformers 기반 CPU/하이브리드 실행도 가능하지만, 응답 지연은 훨씬 길어진다.
SGLang으로 서빙하기
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--enable-prefix-caching에이전트 워크로드에서는 prefix caching이 중요하다. 도구 호출과 중간 사고 상태가 여러 턴에 반복되기 때문에 KV 캐시 재사용이 없으면 긴 컨텍스트 비용이 빠르게 커진다.
MCP 연결
MCP 서버는 npx로 실행되는 사전 빌드 서버를 쓰거나 직접 구현할 수 있다. GitHub 개발 보조 에이전트라면 GITHUB_TOKEN을 설정하고, 에이전트 런타임에서 GitHub MCP 서버를 도구로 등록한다.
export GITHUB_TOKEN=ghp_...
npx --yes @modelcontextprotocol/server-github이 구조의 장점은 모델 교체와 도구 교체가 분리된다는 점이다. Qwen3.6을 로컬에 두고, GitHub·파일·검색·데이터베이스 MCP를 필요에 따라 붙일 수 있다.
운영 팁
- 긴 저장소 분석에는 SGLang이나 vLLM처럼 OpenAI 호환 API를 안정적으로 제공하는 서버를 쓴다.
- 도구 호출 파서는 Qwen 계열에 맞는 설정을 사용한다.
- 로컬 실행이라고 해도 GitHub 토큰, 파일 시스템 권한, 셸 명령 권한은 최소화한다.
- 첫 실험은 읽기 전용 MCP부터 시작하고, 쓰기·PR·배포 도구는 명시 승인 단계를 둔다.
관련 문서
- qwen — Qwen 모델 시리즈 개요
- mcp — Model Context Protocol 개요
- local-coding-agents-tips-open-weight — 오픈 가중치 모델로 코딩 에이전트 대안 실험하기
참고 자료
- Building Local AI Systems: Qwen3.6 + MCPs — KDnuggets (2026-07-01 확인)