AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Qwen 튜토리얼 – Qwen3.6과 MCP로 로컬 AI 시스템 만들기

Qwen3.6-35B-A3B는 35B 총 파라미터 중 토큰당 3B를 활성화하는 MoE 모델로, 로컬 에이전트 실험에 맞는 긴 컨텍스트와 MCP 지향 평가를 내세운다. 이 튜토리얼은 Qwen3.6을 로컬 OpenAI 호환 API로 띄우고 MCP 서버를 연결해 개발 보조 에이전트를 만드는 흐름을 정리한다.

기본 구성

선택지
모델Qwen/Qwen3.6-35B-A3B
서빙SGLang, vLLM, Ollama 소형 대안
도구 연결GitHub MCP, 파일 시스템 MCP 등
에이전트 코드Qwen-Agent 또는 OpenAI 호환 클라이언트

GPU 추론은 Q4 양자화 기준 20~24GB VRAM이 현실적이다. RTX 4090 한 장이나 3090 두 장으로 실험할 수 있고, bfloat16 전체 모델은 약 70GB VRAM이 필요하다. GPU가 부족하면 KTransformers 기반 CPU/하이브리드 실행도 가능하지만, 응답 지연은 훨씬 길어진다.

SGLang으로 서빙하기

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --host 0.0.0.0 \
  --port 8000 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --enable-prefix-caching

에이전트 워크로드에서는 prefix caching이 중요하다. 도구 호출과 중간 사고 상태가 여러 턴에 반복되기 때문에 KV 캐시 재사용이 없으면 긴 컨텍스트 비용이 빠르게 커진다.

MCP 연결

MCP 서버는 npx로 실행되는 사전 빌드 서버를 쓰거나 직접 구현할 수 있다. GitHub 개발 보조 에이전트라면 GITHUB_TOKEN을 설정하고, 에이전트 런타임에서 GitHub MCP 서버를 도구로 등록한다.

export GITHUB_TOKEN=ghp_...
npx --yes @modelcontextprotocol/server-github

이 구조의 장점은 모델 교체와 도구 교체가 분리된다는 점이다. Qwen3.6을 로컬에 두고, GitHub·파일·검색·데이터베이스 MCP를 필요에 따라 붙일 수 있다.

운영 팁

  • 긴 저장소 분석에는 SGLang이나 vLLM처럼 OpenAI 호환 API를 안정적으로 제공하는 서버를 쓴다.
  • 도구 호출 파서는 Qwen 계열에 맞는 설정을 사용한다.
  • 로컬 실행이라고 해도 GitHub 토큰, 파일 시스템 권한, 셸 명령 권한은 최소화한다.
  • 첫 실험은 읽기 전용 MCP부터 시작하고, 쓰기·PR·배포 도구는 명시 승인 단계를 둔다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)