DeepSeek V4 출시, 1M 컨텍스트를 에이전트가 실제로 쓸 수 있게 만든 방법

2026-04-26

﹒

2 minutes

AI 에이전트는 긴 맥락을 처리할 때 곧잘 멈춥니다. 컨텍스트가 넘치거나, KV 캐시가 GPU를 가득 채우거나, 도구 호출을 반복하다 추론 흐름이 끊기기 때문입니다. DeepSeek V4는 그 실패 지점들을 정면으로 겨냥해 설계됐습니다.

사진 출처: DeepSeek 공식 API 문서

DeepSeek이 V4 시리즈 두 모델을 공개했습니다. V4-Pro(총 1.6T / 활성 49B 파라미터)와 V4-Flash(총 284B / 활성 13B 파라미터)로, 두 모델 모두 1M 토큰 컨텍스트 윈도우를 기본으로 지원합니다. MIT 라이선스로 오픈소스 공개되었으며, API는 오늘부터 사용 가능합니다.

출처: DeepSeek V4 Preview Release – DeepSeek 공식 API 문서

1M 컨텍스트, 지원하는 것과 쓸 수 있는 것은 다르다

긴 컨텍스트 윈도우를 ‘지원’하는 모델은 이미 많습니다. 문제는 실제로 쓸 수 있냐는 겁니다.

에이전트가 도구 호출을 반복하면 컨텍스트가 계속 늘어납니다. 쌓인 결과가 모두 다음 추론에 반영되어야 하기 때문에, 시퀀스가 길어질수록 매 토큰 생성마다 치러야 하는 연산 비용이 급격히 커집니다. 결국 메모리가 넘치거나 속도가 감당하기 어려운 수준으로 느려지죠.

DeepSeek V4가 이 문제를 푼 방식은 아키텍처 수준의 재설계입니다. 1M 토큰 상황에서 V4-Pro는 이전 세대(V3.2) 대비 추론 연산량(FLOPs)이 27%, KV 캐시 메모리는 10% 수준입니다. V4-Flash는 더 내려가 FLOPs 10%, KV 캐시 7%입니다. 기존 표준 아키텍처(GQA 8헤드 기준)와 비교하면 KV 캐시가 약 2% 수준에 불과합니다.

핵심은 두 가지 어텐션 메커니즘의 조합

효율의 핵심은 CSA(Compressed Sparse Attention) 와 HCA(Heavily Compressed Attention) 를 레이어별로 교차 적용하는 하이브리드 구조입니다.

CSA는 시퀀스 차원에서 KV 항목을 4배 압축한 뒤, FP4 정밀도의 경량 인덱서가 각 쿼리에 필요한 블록만 골라냅니다. 모든 토큰을 다 처리하지 않고 중요한 부분만 선택적으로 봅니다.

HCA는 압축 비율을 128배로 높이고 대신 선택 과정 없이 압축된 전체 시퀀스를 한 번에 처리합니다. 압축된 시퀀스가 워낙 짧아 전체를 보더라도 비용이 낮습니다.

V4-Pro의 61개 레이어는 이 두 방식을 교차 배치합니다. 레이어마다 필요한 어텐션 패턴이 다른데, 한 방식만 쓰면 처리 용량을 낭비한다는 판단입니다. 대부분의 KV 항목은 FP8로 저장하고, FP4 인덱서까지 더해 저장 효율을 극대화했습니다.

에이전트를 위한 추론 흐름 설계

아키텍처 효율만으로는 충분하지 않습니다. V4는 에이전트 워크플로우를 염두에 둔 후처리 설계도 함께 적용했습니다.

가장 달라진 점은 도구 호출 간 추론 보존입니다. 이전 V3.2에서는 새 사용자 메시지가 들어오면 이전까지 쌓인 추론 내용이 사라졌습니다. 단일 사용자 턴 내에서는 문제가 없었지만, 에이전트가 여러 도구를 연쇄 호출하는 중에 사용자가 메시지를 추가하면 모델이 맥락을 잃고 처음부터 재구성해야 했습니다.

V4는 도구 호출이 포함된 대화에서는 사용자 메시지 경계를 넘어서도 추론 내역을 유지합니다. 도구가 없는 일반 대화에서는 이전처럼 턴마다 추론을 비워 컨텍스트를 간결하게 유지합니다.

가격이 만드는 실질적 차이

HuggingFace 블로그에서 정리한 가격 비교를 보면, V4-Pro가 입력 기준 $1.74/M 토큰으로 Claude Sonnet 4.6($3/M), GPT-5.4($2.50/M)보다 낮습니다. V4-Flash는 $0.14/M으로 소형 모델 중 최저가 수준입니다.

DeepSeek은 이 가격이 가능한 이유가 효율 설계 덕분이라고 밝힙니다. 긴 컨텍스트에서 연산 비용 자체가 낮으니 API 가격도 낮출 수 있다는 논리입니다.

다만 한계도 명확합니다. V4는 텍스트 전용으로, 오디오·비디오·이미지를 지원하는 멀티모달 기능이 없습니다. 벤치마크에서는 GPT-5.4, Gemini 3.1 Pro 대비 “약 3~6개월의 격차”를 스스로 인정했습니다.

효율 설계가 바꾸는 것

이번 발표의 의미는 성능 순위보다 효율 설계에 있습니다. 1M 토큰 컨텍스트가 비싸서 못 쓰는 게 아니라 기본값이 되는 세계를, DeepSeek은 아키텍처 재설계로 끌어당기고 있습니다.

참고자료:

DeepSeek-V4: a million-token context that agents can actually use – Hugging Face Blog
DeepSeek V4—almost on the frontier, a fraction of the price – Simon Willison

Like?

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

DeepSeek V4 출시, 1M 컨텍스트를 에이전트가 실제로 쓸 수 있게 만든 방법

1M 컨텍스트, 지원하는 것과 쓸 수 있는 것은 다르다

핵심은 두 가지 어텐션 메커니즘의 조합

에이전트를 위한 추론 흐름 설계

가격이 만드는 실질적 차이

효율 설계가 바꾸는 것

Fediverse reactions

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

DeepSeek V4 출시, 1M 컨텍스트를 에이전트가 실제로 쓸 수 있게 만든 방법

한국인 700만 명의 합성 데이터, AI 에이전트 맥락 문제를 바꾼다

Dario Amodei vs Yann LeCun, AI 일자리 논쟁에서 누구 말을 믿어야 할까

Claude는 최소한으로, GPT-5.4는 과도하게, AI 코딩 편집 스타일 비교 실험