Adaptive Chunking – RAG에서 문서별 최적 청킹 전략 자동 선택

왜 하나의 청킹 방법만으로는 부족한가
핵심 메커니즘: 5가지 내재적 품질 지표
지원 청킹 방법
PDF 파싱 백엔드
설치
RAG 평가 파이프라인
누가, 어떤 경우에 쓰면 좋을까
논문
참고 자료
관련 문서

Adaptive Chunking은 RAG(검색 증강 생성) 파이프라인에서 모든 문서에 동일한 청킹(chunking) 방식을 적용하는 대신, 문서별로 여러 청킹 전략을 평가해 자동으로 최적 방법을 선택하는 프레임워크다. LREC 2026에서 발표됐으며, MIT 라이선스 오픈소스 라이브러리로 공개됐다.

왜 하나의 청킹 방법만으로는 부족한가

기술 문서, 법률 문서, 지속가능성 보고서는 구조와 특성이 완전히 다르다. 고정된 크기로 자르는 방식은 기술 문서의 코드 블록을 중간에 끊고, 법률 문서의 조항 구조를 무시한다. Adaptive Chunking은 “RAG 파이프라인에 최적인 청킹 방식은 문서마다 다르다”는 전제에서 출발한다.

핵심 메커니즘: 5가지 내재적 품질 지표

청킹 결과를 외부 레이블 없이 문서 자체 기준으로 평가한다:

지표	설명
Size compliance	청크 크기가 목표 범위 내에 있는지
Intrachunk cohesion	청크 내 문장들이 의미적으로 응집되어 있는지
Contextual coherence	청크가 전후 맥락과 자연스럽게 연결되는지
Block integrity	코드 블록, 표, 리스트 등 구조가 온전하게 유지되는지
Filtered missing reference error	참조 링크가 끊기지 않았는지

지원 청킹 방법

고정 크기 청킹(Fixed-size)
재귀적 분할(Recursive splitting) — 설정 가능한 구분자, 병합 모드, 오버랩
의미론적 청킹(Semantic chunking)
사용자 정의 청킹 방법 플러그인 지원

PDF 파싱 백엔드

백엔드	특징
Docling	오픈소스, 기본값
PyMuPDF	경량
Azure Document Intelligence	클라우드, 고정밀

Excel 파일도 지원한다.

설치

pip install adaptive-chunking

from adaptive_chunking import AdaptiveChunker

chunker = AdaptiveChunker()
chunks = chunker.chunk(document)

RAG 평가 파이프라인

하이브리드 검색(키워드 + 임베딩)과 맞춤형 검색 완전성 지표(retrieval completeness metric) 및 정답 정확도(answer correctness scoring)를 포함한 end-to-end 평가 파이프라인을 함께 제공한다.

누가, 어떤 경우에 쓰면 좋을까

멀티도메인 RAG 시스템을 구축하는 팀: 기술, 법률, 재무 등 서로 다른 성격의 문서를 하나의 파이프라인으로 처리해야 할 때
청킹 전략을 수동으로 조정하는 데 시간이 많이 드는 경우: 문서별 자동 최적화로 튜닝 비용을 줄일 수 있다
RAG 품질을 레이블 없이 측정하려는 연구자: 5가지 내재적 지표가 평가 기준으로 활용된다

논문

arxiv:2603.25333 — Adaptive Chunking (LREC 2026)

참고 자료

ekimetrics/adaptive-chunking — GitHub 공식 저장소

AI Sparkup