DeepSeek가 공개한 새로운 OCR 모델은 텍스트를 이미지 토큰으로 압축해 처리하는 혁신적 방식을 제시합니다. 단일 GPU로 하루 20만 페이지를 처리하면서도 96% 이상의 정확도를 유지하는 이 기술은, LLM의 긴 컨텍스트 처리 비용을 획기적으로 줄일 수 있는 가능성을 보여줍니다.
핵심 포인트:
- 10배 압축의 역설 – 텍스트를 이미지로 변환 시 9-10배 압축에서 96% 정확도, 20배 압축에서도 85-87% 정확도 유지
- 단일 GPU로 하루 20만 페이지 처리 – A100 GPU 하나로 20만 페이지, 20개 노드로 확장 시 하루 3,300만 페이지 처리 가능
- 이미지 토큰이 텍스트 토큰보다 효율적인 이유 – 텍스트 토큰: 50,000개 중 선택, 이미지 토큰: 1,000개 부동소수점으로 더 많은 정보 표현
텍스트보다 이미지가 효율적이다?
직관에 반하는 이야기입니다. 텍스트 파일을 만들고 그것을 스크린샷으로 찍으면 이미지 파일이 약 200배 더 큽니다. 그런데 AI 모델 안에서는 정반대 현상이 일어납니다. 이미지 토큰 하나가 텍스트 토큰 10개 분량의 정보를 담을 수 있다는 것이 DeepSeek의 발견입니다.

왜 이런 일이 가능할까요? 비유를 들어 설명해보겠습니다.
텍스트 토큰은 정해진 메뉴판에서 주문하는 것과 같습니다. AI 모델은 약 50,000개의 단어 목록을 가지고 있습니다. “안녕”, “하세요”, “반갑습니다” 같은 단어들이죠. 모델은 이 목록에서 하나씩만 선택할 수 있습니다. 마치 카페 메뉴판에서 “아메리카노” 아니면 “카페라떼”를 선택하는 것처럼요.
반면 이미지 토큰은 완전히 다릅니다. 1,000개의 다이얼이 있는 믹서기를 상상해보세요. 각 다이얼은 0부터 무한대까지 아주 세밀하게 조절할 수 있습니다. 이 다이얼들을 조합하면 거의 무한에 가까운 표현이 가능합니다. “아메리카노 70%, 카페라떼 30%, 바닐라 5%, 온도 65도”처럼 훨씬 섬세한 조절이 가능한 거죠.
구체적인 예를 들어볼까요. “dog”이라는 단어를 처리할 때, 텍스트 토큰은 딱 하나의 선택지만 있습니다. 바로 “dog”입니다. 하지만 모델 내부에서는 이걸 1,000개의 숫자로 확장해야 합니다. “개라는 의미”, “명사”, “동물”, “애완동물” 등 단어가 가진 모든 의미 정보를 숫자로 표현하는 거죠.
이미지 토큰은 다릅니다. 처음부터 1,000개의 숫자를 자유롭게 사용할 수 있습니다. “dog”이라는 글자의 모양, 폰트, 크기, 위치를 모두 담을 수 있죠. 중간에 “단어의 의미”로 변환하는 단계가 없어서 정보 손실이 적습니다. 날것 그대로의 시각 정보를 담는 겁니다.
결과적으로 텍스트 토큰 10개가 담는 정보를 이미지 토큰 1개가 담을 수 있습니다. 정해진 메뉴판보다 자유로운 조합이 훨씬 더 효율적이기 때문입니다.
DeepSeek-OCR의 압축 마법
DeepSeek-OCR은 이런 통찰을 실제 시스템으로 구현했습니다. 2단계 인코더-디코더 구조를 사용하는데, DeepEncoder(약 3.8억 파라미터)가 이미지를 비전 토큰으로 압축하고, DeepSeek-3B-MoE(약 5.7억 활성 파라미터)가 이를 다시 텍스트로 복원합니다.
압축 성능이 놀랍습니다. 1024×1024 해상도의 이미지를 단 256개의 비전 토큰으로 표현합니다. 일반적으로 같은 페이지를 텍스트로 처리하면 2,000-5,000개의 토큰이 필요한 것과 비교하면 엄청난 효율입니다.
Fox 벤치마크에서 측정한 결과를 보겠습니다. 64개의 비전 토큰만 사용해 10배 압축을 달성하면서도 96.5%의 정확도를 유지했습니다. 100개의 토큰을 사용하면 10배 압축에서 97.3%, 심지어 20배 압축에서도 87.1%의 정확도를 보였습니다.
OmniDocBench에서는 다른 최신 OCR 모델들을 압도했습니다. GOT-OCR2.0, Qwen2.5-VL, InternVL3 같은 모델들이 1,500개 이상의 비전 토큰을 사용하는 동안, DeepSeek-OCR은 1,000개 미만의 토큰으로 더 높은 정확도를 달성했습니다. Edit Distance 기준 0.25 미만으로 거의 사람 수준의 정확도를 보였습니다.
광학 압축: LLM의 새로운 가능성
이 기술이 주는 함의는 단순한 OCR을 넘어섭니다. “광학 압축(Optical Compression)”이라는 새로운 패러다임을 제시하기 때문입니다.
현재 LLM들은 긴 컨텍스트 처리에 막대한 비용이 듭니다. 100,000 토큰짜리 문서를 처리하면 지연 시간과 메모리 사용량, 토큰 비용이 치솟습니다. Transformer의 어텐션이 시퀀스 길이에 대해 제곱으로 증가하기 때문입니다.
하지만 텍스트를 이미지로 변환해 전송하면 어떨까요? 같은 페이지가 텍스트로는 2,000-5,000개 토큰이 필요하지만, 이미지로 렌더링하면 200-400개의 비전 토큰으로 충분합니다. 약 10배 압축입니다.

DeepSeek 논문은 흥미로운 아이디어를 제안합니다. 컨텍스트가 길어지면, 오래된 부분은 해상도를 낮춰 저장하는 것입니다. 마치 인간의 기억처럼 최근 기억은 선명하지만 오래된 기억은 흐릿한 방식이죠. 이렇게 하면 메모리를 효율적으로 사용하면서도 필요한 정보는 유지할 수 있습니다.
실전에서 증명된 효과
이미 여러 기업과 프로젝트가 이 방식을 활용하기 시작했습니다.
Morphik.ai는 이 접근법을 RAG(Retrieval Augmented Generation) 시스템에 적용했습니다. 전통적인 파싱 방식 대신 문서를 이미지로 직접 처리하는 방식을 채택한 결과, ViDoRe 벤치마크에서 81.3% nDCG@5를 기록했습니다. 전통적 파싱 방법의 67.0%를 크게 앞선 수치입니다.
더 놀라운 것은 자체 평가 결과입니다. 금융 문서 45개 질문을 대상으로 테스트했을 때, 다른 엔드투엔드 제공업체들이 67% 정확도에 머물고, 정교하게 최적화된 LangChain 파이프라인이 72%를 달성하는 동안, Morphik은 95.56% 정확도를 기록했습니다. OpenAI의 파일 검색 도구는 13.33%에 불과했습니다.
왜 이렇게 차이가 클까요? 전통적 방식은 OCR로 텍스트를 추출하고, 레이아웃을 감지하고, 읽기 순서를 재구성하는 7단계 과정을 거칩니다. 각 단계마다 정보가 손실됩니다. 차트는 텍스트로 바뀌고, 테이블 구조는 흐트러지고, 시각적 관계는 사라집니다.
반면 광학 압축 방식은 문서를 있는 그대로 봅니다. 차트의 상승 곡선, 테이블의 셀 배치, 컬러 코딩된 요소들까지 모두 유지됩니다. “Q3 매출 추세”를 검색하면 텍스트뿐 아니라 관련 차트와 테이블까지 함께 찾아냅니다.
Colette는 오픈소스 프로젝트로 이 기술을 구현했고, 전용 벤치마크도 등장했습니다. 아직 초기 단계지만, 방향은 분명해 보입니다.
실용적 활용 영역
DeepSeek-OCR은 단일 A100 GPU로 하루 20만 페이지를 처리합니다. 20개 노드로 확장하면 하루 3,300만 페이지입니다. 대규모 문서 디지털화나 AI 학습 데이터 생성에 즉시 활용 가능한 수준입니다.
특히 효과적인 분야들이 있습니다. 금융 문서는 차트와 테이블이 핵심 정보를 담고 있습니다. 기술 매뉴얼은 다이어그램이 수천 단어보다 명확합니다. 송장과 영수증은 레이아웃과 구조 자체가 의미를 전달합니다. 연구 논문은 그림에 실제 발견 사항이 들어있습니다.
모델은 다양한 능력을 갖췄습니다. 차트를 HTML 테이블로 파싱하고, 화학 공식을 SMILES 문자열로 변환하고, 평면 기하학을 구조화된 딕셔너리로 이해합니다. 거의 100개 언어의 다국어 OCR을 지원하며, 일반적인 비전 작업도 수행합니다.
모델과 코드는 모두 오픈소스로 GitHub에 공개되어 있습니다. Tiny 모드(512×512, 64 토큰)부터 Large 모드(1280×1280, 400 토큰)까지, 상황에 맞게 선택할 수 있습니다. 복잡한 문서에는 Gundam 모드를 사용해 여러 타일로 나눠 처리할 수 있습니다.
인간의 텍스트 처리 방식을 닮아가는 AI
생각해보면 이 접근법은 인간이 텍스트를 처리하는 방식과 비슷합니다. 우리는 텍스트를 ‘텍스트 콘텐츠’로 소비하지 않습니다. 이미지 콘텐츠로, 때로는 오디오 콘텐츠로 소비하죠.
이모지를 생각해보세요. “:)”는 이미지로 보면 즉시 이해되지만, 텍스트로 보면 “이미 알고 있어야” 하는 정보입니다. 텍스트를 이미지의 하위 범주로 취급하면, 텍스트만 다룰 때는 불가능했던 처리 방식이 가능해질 수 있습니다.
이 기술이 완전히 자리 잡으려면 아직 해결할 과제가 남아있습니다. 새로운 LLM을 처음부터 이미지 기반으로 학습시킬 수 있을까요? 단어별로 이미지를 생성하고 검증하는 것은 느리고 복잡합니다. 하이브리드 방식이 필요할 수도 있습니다.
하지만 방향은 분명해 보입니다. 텍스트 처리의 미래는 텍스트를 버리는 것이 아니라, 텍스트를 더 효율적으로 표현하는 새로운 방법을 찾는 것입니다. 어쩌면 미래의 LLM은 장기 메모리를 토큰이 아니라 이미지로 저장할지도 모릅니다. 압축되고, 계층화되고, 희미해지는 방식으로요. 우리 자신의 기억처럼.
참고자료:

답글 남기기