LLM이 백만 토큰 수준의 긴 문서를 처리하려면 계산 비용이 4배씩 증가합니다. 중국 AI 연구소들이 거의 동시에 내놓은 두 가지 해법은 “텍스트를 이미지로 바꿔 압축한다”는 같은 아이디어에서 출발하지만, 완전히 다른 방식으로 문제를 풉니다.
핵심 포인트:
- Glyph는 VLM이 이미지를 직접 읽게 만듭니다: 텍스트를 이미지로 렌더링한 뒤 비전-언어 모델이 그대로 처리. 3-4배 토큰 압축과 4배 빠른 추론 속도를 달성했습니다.
- DeepSeek-OCR은 압축 후 다시 텍스트로 복원합니다: Encoder-Decoder 구조로 이미지를 10배 압축했다가 텍스트로 디코딩. 하루 20만 페이지를 A100 GPU 한 대로 처리하는 실용성을 증명했습니다.
- “텍스트 토큰은 비효율적”이라는 도발: 두 연구 모두 기존 텍스트 기반 LLM의 근본적 한계를 지적합니다. 하지만 시각적 이해력인지 언어 모델의 사전학습 지식인지 구분이 애매하다는 반론도 만만치 않습니다.

왜 텍스트를 이미지로 바꾸나
LLM의 어텐션 메커니즘은 O(n²) 복잡도를 가집니다. 컨텍스트가 5만 토큰에서 10만 토큰으로 늘어나면 계산량이 4배 증가하는 구조입니다. 100만 토큰을 처리하려면? 메모리와 계산 비용이 폭발적으로 커집니다.
2025년 10월 셋째 주, 청화대학교와 Z.AI(Zhipu AI)의 연구팀이 Glyph를, DeepSeek이 DeepSeek-OCR을 하루 간격으로 발표했습니다. 두 논문 모두 “긴 텍스트를 이미지로 렌더링해서 토큰 수를 줄인다”는 접근법을 택했습니다. 하지만 목적지는 완전히 달랐습니다.
Glyph: VLM이 직접 이미지를 읽는다
Glyph는 프레임워크입니다. 모델이 아니라 긴 텍스트 처리 방식 자체를 바꾸는 시스템이죠. GLM-4.1V 같은 비전-언어 모델을 활용해 렌더링된 이미지를 직접 이해하고 추론하게 만듭니다.
핵심은 세 단계 학습입니다. 먼저 다양한 시각적 스타일로 렌더링된 텍스트를 이해하도록 VLM을 지속 사전학습시킵니다. 그다음 LLM 기반 유전 알고리즘으로 최적의 렌더링 설정(폰트 크기, 해상도, 레이아웃)을 자동으로 찾아냅니다. 마지막으로 발견한 설정으로 지도학습과 강화학습을 진행합니다.
결과는 인상적입니다. LongBench와 MRCR 벤치마크에서 Qwen3-8B 같은 텍스트 전용 LLM과 비슷한 정확도를 유지하면서 3-4배 토큰 압축을 달성했습니다. 추론 속도는? Prefill과 decoding 모두 약 4배 빠르고, SFT 학습은 2배 빨라졌습니다.

극한 상황에서는 더 흥미롭습니다. 128K 컨텍스트를 지원하는 VLM이 Glyph를 통해 100만 토큰 수준의 작업을 처리할 수 있게 됩니다. 문서 이해, 긴 대화 기록 분석, 복잡한 코드베이스 검토 같은 실무 작업에서 비용 효율이 크게 개선되는 거죠.
DeepSeek-OCR: 압축했다가 다시 풀어낸다
DeepSeek-OCR은 다른 길을 택했습니다. 이미지를 최종 입력으로 쓰는 게 아니라 중간 압축 단계로 활용합니다. 텍스트를 고해상도 이미지로 렌더링하고, 소수의 비전 토큰으로 압축한 다음, 다시 텍스트로 디코딩하는 방식입니다.
두 가지 핵심 컴포넌트가 있습니다. DeepEncoder는 SAM-base(윈도우 어텐션)와 CLIP-large(전역 어텐션)를 결합한 커스텀 인코더입니다. 16배 토큰 압축기를 탑재하고 있고요. Tiny/Small/Base/Large/Gundam 같은 다양한 해상도 모드를 제어할 수 있습니다.
LLM 디코더는 3B MoE(Mixture of Experts) 모델입니다. 추론 시 64개 전문가 중 6개와 공유 전문가 2개만 활성화되어 약 5억 7천만 개 파라미터만 작동합니다. 작지만 효율적입니다.

FOX 벤치마크에서 약 10배 압축으로 97% 디코딩 정확도를 기록했습니다. 더 공격적인 15-20배 압축에서는 60-87% 정확도를 보였고요. OmniDocBench에서는 실제 문서 파싱 테스트에서 Qwen2.5-VL-72B나 InternVL3-78B 같은 대형 VLM이 3,900-6,800개 토큰을 사용할 때, DeepSeek-OCR은 1,853개 토큰으로 경쟁력 있는 성능을 냈습니다.
실무 적용도 빠릅니다. DeepSeek은 이미 A100-40G GPU 한 대로 하루 20만 페이지 이상을 처리하고 있습니다.
같은 문제, 다른 철학
두 접근법의 차이는 명확합니다. Glyph는 “이미지 자체가 입력”이라고 말합니다. VLM의 시각적 이해력을 믿고 끝까지 이미지로 밀고 나갑니다. 반면 DeepSeek-OCR은 “이미지는 압축 수단”이라고 봅니다. 결국 텍스트로 돌아와야 한다는 입장이죠.
| 구분 | Glyph (청화대/Z.AI) | DeepSeek-OCR (DeepSeek) |
|---|---|---|
| 최종 목적 | 긴 텍스트 처리를 VLM으로 직접 수행 | 텍스트를 이미지로 압축 후 다시 텍스트로 디코딩 |
| 프로세스 | 텍스트 → 이미지 → VLM이 직접 이해/추론 | 텍스트 → 이미지 → 압축 → 다시 텍스트로 변환 |
| 압축률 | 3-4배 | 10배 (97% 정확도 유지) |
| 평가 방식 | 긴 컨텍스트 QA (LongBench, MRCR) | OCR 정확도, 문서 파싱 성능 |
| 모델 타입 | VLM 프레임워크 (GLM-4.1V 기반) | Encoder-Decoder (3B MoE) |
| 주요 강점 | 범용 긴 컨텍스트 처리, 4배 빠른 추론 | 문서 중심 작업, 하루 20만 페이지 처리 |
평가 방식도 다릅니다. Glyph는 LongBench, MRCR, Ruler 같은 긴 컨텍스트 이해 벤치마크로 측정합니다. DeepSeek-OCR은 OCR 정확도와 문서 파싱 성능에 집중합니다. 전자는 “VLM이 의미를 이해하는가”를 묻고, 후자는 “얼마나 정확히 복원하는가”를 따집니다.
실용성 측면에서는? Glyph는 범용 긴 컨텍스트 처리에 강점이 있습니다. 대화 기록, 코드 분석, 복잡한 문서 이해 같은 작업에서 추론 속도를 크게 개선할 수 있습니다. DeepSeek-OCR은 문서 중심 작업에서 빛납니다. 대량의 PDF, 계약서, 리포트를 빠르게 처리해야 하는 상황에 최적화되어 있습니다.
텍스트는 정말 죽었나
일부 중국 매체는 “텍스트는 죽었다, 시각이 빛난다(Text is dead, visual shines)”는 표현을 쓰기도 했습니다. 과장이긴 하지만 핵심을 찌릅니다. 텍스트 토큰이 정말 LLM 입력의 최선일까요?
전 OpenAI와 Tesla AI 과학자였던 Andrej Karpathy는 이렇게 말했습니다. “내게 더 흥미로운 건 픽셀이 텍스트보다 나은 LLM 입력인지 여부다. 텍스트 토큰이 낭비적이고 형편없는 건 아닐까?”
반론도 있습니다. DeepMind AGI 연구자 Dileep George는 회의적입니다. “텍스트를 이미지(픽셀)로 바꾸는 게 언어 모델링에 어떻게 더 나은지 모르겠다. 내가 놓친 게 뭔가?”
핵심 질문은 이겁니다. 압축된 비전 토큰의 성능이 정말 시각적 이해에서 오는 걸까요, 아니면 LLM의 방대한 사전학습 지식 덕분일까요? 진정한 시각적 성능을 검증하려면 무작위 문자열이나 의미 없는 텍스트로 통제된 실험이 필요합니다.
또 다른 의문은 효율성입니다. 토큰 감소가 실제 압축을 의미할까요? 디코딩에 추가 계산 비용이 든다면 총 계산량은 오히려 늘어날 수 있습니다. OCR 정확도만으론 성공을 판단하기 어렵습니다. 이미지에서 직접 인간 수준의 질문에 답할 수 있는지가 진짜 테스트겠죠. 이 기준으로 보면 Glyph가 DeepSeek-OCR보다 한 발 앞서 있습니다.
흥미로운 건 Encoder-Decoder 아키텍처의 귀환입니다. BERT 시대를 지배했던 이 구조는 Decoder-only 모델(GPT 계열)에 밀려났었죠. 확장이 쉽고, 학습이 간단하고, 생성 작업에 더 잘 맞았으니까요. DeepSeek-OCR은 이 구조를 컨텍스트 압축이라는 특정 목적으로 되살렸습니다. 긴 입력 처리는 인코더에 맡기고 생성은 디코더가 담당하는 하이브리드 전략입니다.
새로운 패러다임의 시작
두 연구가 보여주는 건 단순한 기술적 트릭이 아닙니다. LLM이 정보를 어떻게 받아들여야 하는지에 대한 근본적 재검토입니다. 채팅 기록을 이미지로 저장하면 같은 예산으로 10배 많은 대화를 기억할 수 있습니다. 계약서, 재무제표, 연구 논문, 차트를 대규모로 분석하면서 비용-정확도 트레이드오프를 세밀하게 조절할 수 있게 됩니다.
물론 한계도 명확합니다. Glyph는 렌더링 파라미터에 민감합니다. 학습 때 사용한 설정과 크게 다른 스타일에는 일반화가 어렵습니다. DeepSeek-OCR은 UUID 같은 세밀한 문자열 인식에서 여전히 어려움을 겪습니다. 두 모델 모두 긴 컨텍스트 이해에 집중해 학습됐기 때문에 더 넓은 범위의 작업에서 얼마나 잘 작동할지는 미지수입니다.
그럼에도 방향은 분명합니다. 비주얼 압축은 이제 실험실 아이디어가 아니라 실용 기술로 진화하고 있습니다. DeepSeek-R1과 Kimi 1.5에서 보았듯 중국 AI 연구소들은 계속해서 독창적인 해법을 내놓고 있습니다. Glyph와 DeepSeek-OCR은 그 최신 사례일 뿐입니다.
참고자료:

답글 남기기