DeepSeek V4 – 최전선 성능에 근접한 초저가 오픈 가중치 MoE 모델

모델 스펙
가격 비교
아키텍처 혁신
효율성의 비결
추론 모드
성능 위치
사용 방법
라이선스
관련 문서

중국 AI 랩 DeepSeek이 2026년 4월 V4 시리즈의 첫 번째 프리뷰 모델 두 개를 공개했다. DeepSeek-V4-Pro와 DeepSeek-V4-Flash는 모두 1M 토큰 컨텍스트 창을 지원하는 혼합 전문가(Mixture of Experts, MoE) 아키텍처이며, MIT 라이선스로 배포되었다.

모델 스펙

항목	DeepSeek-V4-Pro	DeepSeek-V4-Flash
총 파라미터	1.6T	284B
활성 파라미터	49B	13B
컨텍스트	1M 토큰	1M 토큰
저장 용량	865GB	160GB
라이선스	MIT	MIT

DeepSeek-V4-Pro는 현재 공개된 오픈 가중치 모델 중 최대 규모로, Kimi K2.6(1.1T), GLM-5.1(754B), DeepSeek V3.2(685B)보다 크다.

가격 비교

DeepSeek V4의 가장 주목할 특징은 압도적 가격 경쟁력이다.

모델	입력 ($/M 토큰)	출력 ($/M 토큰)
DeepSeek V4 Flash	$0.14	$0.28
GPT-5.4 Nano	$0.20	$1.25
Gemini 3.1 Flash-Lite	$0.25	$1.50
Gemini 3 Flash Preview	$0.50	$3.00
GPT-5.4 Mini	$0.75	$4.50
Claude Haiku 4.5	$1.00	$5.00
DeepSeek V4 Pro	$1.74	$3.48
Gemini 3.1 Pro	$2.00	$12.00
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6	$3.00	$15.00
Claude Opus 4.7	$5.00	$25.00
GPT-5.5	$5.00	$30.00

DeepSeek-V4-Flash는 소형 모델 중 최저가이며, V4-Pro는 대형 최전선 모델 중 가장 저렴하다.

아키텍처 혁신

세 가지 핵심 기술이 효율성 향상을 이끈다:

하이브리드 어텐션(Hybrid Attention): 압축 희소 어텐션(CSA)과 고압축 어텐션(HCA)을 결합해 1M 토큰 컨텍스트 처리 비용을 극적으로 절감
Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결(residual connection)을 강화해 레이어 간 신호 전파 안정성 확보
Muon 옵티마이저: 수렴 속도와 학습 안정성 개선

사전학습 규모: 32조 토큰 이상의 다양한 고품질 데이터.

효율성의 비결

1M 토큰 컨텍스트 시나리오에서 V3.2 대비:

V4-Pro: 단일 토큰 FLOPs 27%, KV 캐시 10%
V4-Flash: 단일 토큰 FLOPs 10%, KV 캐시 7%

이 효율성 개선이 저가 책정을 가능하게 한다.

추론 모드

Pro와 Flash 모두 세 가지 추론 노력(reasoning effort) 모드를 지원한다:

모드	특성	대표 사용 사례
Non-think	빠른 직관적 응답	일상 루틴 작업, 저위험 결정
Think High	논리적 분석, 느리지만 더 정확	복잡한 문제 해결, 계획 수립
Think Max (Pro-Max)	추론 능력 최대한 발휘	코딩 벤치마크 최고 성능, 고난도 에이전트 작업

Think Max 모드에서는 컨텍스트 창을 최소 384K 토큰으로 설정하길 권장한다.

성능 위치

공식 벤치마크에서 DeepSeek-V4-Pro-Max 기준 주요 성능:

벤치마크	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	DS-V4-Pro Max
LiveCodeBench	88.8	—	91.7	93.5
Codeforces Rating	—	3168	3052	3206
SWE Verified	80.8	—	80.6	80.6
GPQA Diamond	91.3	93.0	94.3	90.1

코딩 벤치마크에서는 최전선 모델을 앞서며, 지식·추론 작업에서는 근소하게 뒤처진다. Simon Willison은 이를 “거의 최전선, 가격은 극히 저렴”으로 요약했다.

사용 방법

OpenRouter를 통해 즉시 사용 가능하다.

pip install llm llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro "질문을 입력하세요"

로컬 실행을 원한다면 HuggingFace Unsloth의 양자화(quantized) 버전이 출시될 예정이다. V4-Flash(160GB)는 128GB 메모리 M5 MacBook Pro에서 실행 가능할 것으로 기대된다.

라이선스

MIT 라이선스 — 상업적 이용 허용.

AI Sparkup