AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

DeepSeek OCR 2, 비주얼 토큰 80% 줄이고 Gemini 3 Pro 능가

문서 이미지를 처리하는 AI 모델들은 보통 이미지를 작은 조각으로 나눠서 왼쪽 위에서 오른쪽 아래로 기계적으로 읽어나갑니다. 하지만 사람은 그렇게 보지 않죠. 나선형 그림을 볼 때 우리 눈은 모양을 따라 움직이지, 줄 단위로 왕복하지 않습니다. DeepSeek이 공개한 OCR 2는 바로 이 지점에 주목합니다.

사진 출처: THE DECODER

중국 AI 기업 DeepSeek이 문서 이미지를 의미 중심으로 재배열해서 처리하는 새로운 비전 인코더 DeepEncoder V2를 공개했습니다. 이 기술을 적용한 DeepSeek OCR 2는 기존 모델 대비 비주얼 토큰을 80% 줄이면서도 문서 처리 벤치마크에서 91.09%를 기록해 Gemini 3 Pro를 능가했습니다.

출처: DeepSeek-OCR 2: Visual Causal Flow – DeepSeek AI (GitHub)

의미 기반으로 이미지를 재배열하는 새로운 방식

기존 비전-언어 모델들은 이미지를 격자 형태로 잘라서 고정된 순서로 처리합니다. DeepSeek 연구팀은 이 방식이 인간의 시각 처리 방식과 맞지 않는다고 지적합니다. DeepEncoder V2는 먼저 비주얼 토큰을 내용 기반으로 재배열한 뒤, 언어 모델이 그 순서를 해석하는 2단계 프로세스를 도입했습니다.

핵심은 CLIP 같은 전통적인 비전 인코더를 작은 언어 모델 아키텍처(Alibaba의 Qwen2 0.5B 기반)로 교체한 것입니다. 연구팀은 “인과 흐름 토큰(causal flow tokens)”이라는 학습 가능한 쿼리 토큰을 도입했는데, 이 토큰들이 비주얼 정보 전체와 이전 쿼리에 접근해서 맥락에 맞게 정보를 정렬합니다. 재배열된 토큰만 디코더로 전달되기 때문에 원본 비주얼 토큰은 버려집니다.

사진 출처: DeepSeek

토큰은 줄이고 성능은 높이다

DeepSeek OCR 2는 이미지당 256~1,120개의 비주얼 토큰을 사용합니다. 비슷한 모델들이 보통 6,000~7,000개를 쓰는 것과 대조적입니다. 1,355페이지를 9개 카테고리로 나눈 문서 처리 벤치마크 OmniDocBench v1.5에서 91.09%를 기록했는데, 이는 전작 DeepSeek OCR보다 3.73%p 높은 수치입니다.

특히 올바른 읽기 순서를 인식하는 능력이 크게 개선됐습니다. 문서 파싱에서는 비슷한 토큰 예산을 쓰는 Gemini 3 Pro도 앞질렀죠. 실제 활용 측면에서도 개선이 있었습니다. 모델이 같은 텍스트를 반복 생성하는 비율이 OCR 백엔드로 사용할 때 6.25%에서 4.17%로, PDF 배치 처리 시에는 3.69%에서 2.88%로 떨어졌습니다.

물론 약점도 있습니다. 신문 처리 성능은 오히려 전작보다 낮은데, 연구팀은 낮은 토큰 한도가 텍스트가 많은 신문 페이지에 문제를 일으킬 수 있고, 학습 데이터에 신문 페이지가 25만 장밖에 없어서 충분하지 않았다고 분석했습니다.

멀티모달 처리의 새로운 가능성

연구팀은 DeepEncoder V2를 표준화된 멀티모달 처리의 발전으로 봅니다. 향후 이 인코더 아키텍처가 텍스트, 음성, 이미지를 같은 기본 프레임워크로 처리하되 모달리티에 따라 쿼리 토큰만 조정하는 방식으로 진화할 수 있다는 거죠. 이 접근법이 결국 2차원 콘텐츠에 대한 진정한 이해로 이어질 수 있다고 논문은 밝히고 있습니다.

코드와 모델 가중치는 GitHub과 Hugging Face에 공개되어 있습니다. DeepSeek은 지난 10월 1세대 DeepSeek OCR을 공개한 바 있는데, 이 시스템은 메모리 요구사항을 10분의 1로 줄여 하루 3,300만 페이지까지 처리할 수 있다고 밝혔습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다