중국 AI 랩 DeepSeek이 2026년 4월 V4 시리즈의 첫 번째 프리뷰 모델 두 개를 공개했다. DeepSeek-V4-Pro와 DeepSeek-V4-Flash는 모두 1M 토큰 컨텍스트 창을 지원하는 혼합 전문가(Mixture of Experts, MoE) 아키텍처이며, MIT 라이선스로 배포되었다.
모델 스펙
| 항목 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 총 파라미터 | 1.6T | 284B |
| 활성 파라미터 | 49B | 13B |
| 컨텍스트 | 1M 토큰 | 1M 토큰 |
| 저장 용량 | 865GB | 160GB |
| 라이선스 | MIT | MIT |
DeepSeek-V4-Pro는 현재 공개된 오픈 가중치 모델 중 최대 규모로, Kimi K2.6(1.1T), GLM-5.1(754B), DeepSeek V3.2(685B)보다 크다.
가격 비교
DeepSeek V4의 가장 주목할 특징은 압도적 가격 경쟁력이다.
| 모델 | 입력 ($/M 토큰) | 출력 ($/M 토큰) |
|---|---|---|
| DeepSeek V4 Flash | $0.14 | $0.28 |
| GPT-5.4 Nano | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3 Flash Preview | $0.50 | $3.00 |
| GPT-5.4 Mini | $0.75 | $4.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 |
| DeepSeek V4 Pro | $1.74 | $3.48 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
| GPT-5.5 | $5.00 | $30.00 |
DeepSeek-V4-Flash는 소형 모델 중 최저가이며, V4-Pro는 대형 최전선 모델 중 가장 저렴하다.
아키텍처 혁신
세 가지 핵심 기술이 효율성 향상을 이끈다:
- 하이브리드 어텐션(Hybrid Attention): 압축 희소 어텐션(CSA)과 고압축 어텐션(HCA)을 결합해 1M 토큰 컨텍스트 처리 비용을 극적으로 절감
- Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결(residual connection)을 강화해 레이어 간 신호 전파 안정성 확보
- Muon 옵티마이저: 수렴 속도와 학습 안정성 개선
사전학습 규모: 32조 토큰 이상의 다양한 고품질 데이터.
효율성의 비결
1M 토큰 컨텍스트 시나리오에서 V3.2 대비:
- V4-Pro: 단일 토큰 FLOPs 27%, KV 캐시 10%
- V4-Flash: 단일 토큰 FLOPs 10%, KV 캐시 7%
이 효율성 개선이 저가 책정을 가능하게 한다.
추론 모드
Pro와 Flash 모두 세 가지 추론 노력(reasoning effort) 모드를 지원한다:
| 모드 | 특성 | 대표 사용 사례 |
|---|---|---|
| Non-think | 빠른 직관적 응답 | 일상 루틴 작업, 저위험 결정 |
| Think High | 논리적 분석, 느리지만 더 정확 | 복잡한 문제 해결, 계획 수립 |
| Think Max (Pro-Max) | 추론 능력 최대한 발휘 | 코딩 벤치마크 최고 성능, 고난도 에이전트 작업 |
Think Max 모드에서는 컨텍스트 창을 최소 384K 토큰으로 설정하길 권장한다.
성능 위치
공식 벤치마크에서 DeepSeek-V4-Pro-Max 기준 주요 성능:
| 벤치마크 | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High | DS-V4-Pro Max |
|---|---|---|---|---|
| LiveCodeBench | 88.8 | — | 91.7 | 93.5 |
| Codeforces Rating | — | 3168 | 3052 | 3206 |
| SWE Verified | 80.8 | — | 80.6 | 80.6 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.1 |
코딩 벤치마크에서는 최전선 모델을 앞서며, 지식·추론 작업에서는 근소하게 뒤처진다. Simon Willison은 이를 “거의 최전선, 가격은 극히 저렴”으로 요약했다.
사용 방법
OpenRouter를 통해 즉시 사용 가능하다.
pip install llm llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro "질문을 입력하세요"로컬 실행을 원한다면 HuggingFace Unsloth의 양자화(quantized) 버전이 출시될 예정이다. V4-Flash(160GB)는 128GB 메모리 M5 MacBook Pro에서 실행 가능할 것으로 기대된다.
라이선스
MIT 라이선스 — 상업적 이용 허용.
관련 문서
- kimi — Moonshot AI의 오픈소스 LLM (Kimi K2.6, 1.1T)
- qwen — Alibaba의 오픈소스 LLM 시리즈
- inference-caching — LLM 추론 비용 절감 전략