AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

DeepSeek V4 – 최전선 성능에 근접한 초저가 오픈 가중치 MoE 모델

중국 AI 랩 DeepSeek이 2026년 4월 V4 시리즈의 첫 번째 프리뷰 모델 두 개를 공개했다. DeepSeek-V4-ProDeepSeek-V4-Flash는 모두 1M 토큰 컨텍스트 창을 지원하는 혼합 전문가(Mixture of Experts, MoE) 아키텍처이며, MIT 라이선스로 배포되었다.

모델 스펙

항목DeepSeek-V4-ProDeepSeek-V4-Flash
총 파라미터1.6T284B
활성 파라미터49B13B
컨텍스트1M 토큰1M 토큰
저장 용량865GB160GB
라이선스MITMIT

DeepSeek-V4-Pro는 현재 공개된 오픈 가중치 모델 중 최대 규모로, Kimi K2.6(1.1T), GLM-5.1(754B), DeepSeek V3.2(685B)보다 크다.

가격 비교

DeepSeek V4의 가장 주목할 특징은 압도적 가격 경쟁력이다.

모델입력 ($/M 토큰)출력 ($/M 토큰)
DeepSeek V4 Flash$0.14$0.28
GPT-5.4 Nano$0.20$1.25
Gemini 3.1 Flash-Lite$0.25$1.50
Gemini 3 Flash Preview$0.50$3.00
GPT-5.4 Mini$0.75$4.50
Claude Haiku 4.5$1.00$5.00
DeepSeek V4 Pro$1.74$3.48
Gemini 3.1 Pro$2.00$12.00
GPT-5.4$2.50$15.00
Claude Sonnet 4.6$3.00$15.00
Claude Opus 4.7$5.00$25.00
GPT-5.5$5.00$30.00

DeepSeek-V4-Flash는 소형 모델 중 최저가이며, V4-Pro는 대형 최전선 모델 중 가장 저렴하다.

아키텍처 혁신

세 가지 핵심 기술이 효율성 향상을 이끈다:

  1. 하이브리드 어텐션(Hybrid Attention): 압축 희소 어텐션(CSA)과 고압축 어텐션(HCA)을 결합해 1M 토큰 컨텍스트 처리 비용을 극적으로 절감
  2. Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결(residual connection)을 강화해 레이어 간 신호 전파 안정성 확보
  3. Muon 옵티마이저: 수렴 속도와 학습 안정성 개선

사전학습 규모: 32조 토큰 이상의 다양한 고품질 데이터.

효율성의 비결

1M 토큰 컨텍스트 시나리오에서 V3.2 대비:

  • V4-Pro: 단일 토큰 FLOPs 27%, KV 캐시 10%
  • V4-Flash: 단일 토큰 FLOPs 10%, KV 캐시 7%

이 효율성 개선이 저가 책정을 가능하게 한다.

추론 모드

Pro와 Flash 모두 세 가지 추론 노력(reasoning effort) 모드를 지원한다:

모드특성대표 사용 사례
Non-think빠른 직관적 응답일상 루틴 작업, 저위험 결정
Think High논리적 분석, 느리지만 더 정확복잡한 문제 해결, 계획 수립
Think Max (Pro-Max)추론 능력 최대한 발휘코딩 벤치마크 최고 성능, 고난도 에이전트 작업

Think Max 모드에서는 컨텍스트 창을 최소 384K 토큰으로 설정하길 권장한다.

성능 위치

공식 벤치마크에서 DeepSeek-V4-Pro-Max 기준 주요 성능:

벤치마크Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighDS-V4-Pro Max
LiveCodeBench88.891.793.5
Codeforces Rating316830523206
SWE Verified80.880.680.6
GPQA Diamond91.393.094.390.1

코딩 벤치마크에서는 최전선 모델을 앞서며, 지식·추론 작업에서는 근소하게 뒤처진다. Simon Willison은 이를 “거의 최전선, 가격은 극히 저렴”으로 요약했다.

사용 방법

OpenRouter를 통해 즉시 사용 가능하다.

pip install llm llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro "질문을 입력하세요"

로컬 실행을 원한다면 HuggingFace Unsloth의 양자화(quantized) 버전이 출시될 예정이다. V4-Flash(160GB)는 128GB 메모리 M5 MacBook Pro에서 실행 가능할 것으로 기대된다.

라이선스

MIT 라이선스 — 상업적 이용 허용.

관련 문서

  • kimi — Moonshot AI의 오픈소스 LLM (Kimi K2.6, 1.1T)
  • qwen — Alibaba의 오픈소스 LLM 시리즈
  • inference-caching — LLM 추론 비용 절감 전략


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)