목차
Adaptive Chunking은 RAG(검색 증강 생성) 파이프라인에서 모든 문서에 동일한 청킹(chunking) 방식을 적용하는 대신, 문서별로 여러 청킹 전략을 평가해 자동으로 최적 방법을 선택하는 프레임워크다. LREC 2026에서 발표됐으며, MIT 라이선스 오픈소스 라이브러리로 공개됐다.
왜 하나의 청킹 방법만으로는 부족한가
기술 문서, 법률 문서, 지속가능성 보고서는 구조와 특성이 완전히 다르다. 고정된 크기로 자르는 방식은 기술 문서의 코드 블록을 중간에 끊고, 법률 문서의 조항 구조를 무시한다. Adaptive Chunking은 “RAG 파이프라인에 최적인 청킹 방식은 문서마다 다르다”는 전제에서 출발한다.
핵심 메커니즘: 5가지 내재적 품질 지표
청킹 결과를 외부 레이블 없이 문서 자체 기준으로 평가한다:
| 지표 | 설명 |
|---|---|
| Size compliance | 청크 크기가 목표 범위 내에 있는지 |
| Intrachunk cohesion | 청크 내 문장들이 의미적으로 응집되어 있는지 |
| Contextual coherence | 청크가 전후 맥락과 자연스럽게 연결되는지 |
| Block integrity | 코드 블록, 표, 리스트 등 구조가 온전하게 유지되는지 |
| Filtered missing reference error | 참조 링크가 끊기지 않았는지 |
지원 청킹 방법
- 고정 크기 청킹(Fixed-size)
- 재귀적 분할(Recursive splitting) — 설정 가능한 구분자, 병합 모드, 오버랩
- 의미론적 청킹(Semantic chunking)
- 사용자 정의 청킹 방법 플러그인 지원
PDF 파싱 백엔드
| 백엔드 | 특징 |
|---|---|
| Docling | 오픈소스, 기본값 |
| PyMuPDF | 경량 |
| Azure Document Intelligence | 클라우드, 고정밀 |
Excel 파일도 지원한다.
설치
pip install adaptive-chunkingfrom adaptive_chunking import AdaptiveChunker
chunker = AdaptiveChunker()
chunks = chunker.chunk(document)RAG 평가 파이프라인
하이브리드 검색(키워드 + 임베딩)과 맞춤형 검색 완전성 지표(retrieval completeness metric) 및 정답 정확도(answer correctness scoring)를 포함한 end-to-end 평가 파이프라인을 함께 제공한다.
누가, 어떤 경우에 쓰면 좋을까
- 멀티도메인 RAG 시스템을 구축하는 팀: 기술, 법률, 재무 등 서로 다른 성격의 문서를 하나의 파이프라인으로 처리해야 할 때
- 청킹 전략을 수동으로 조정하는 데 시간이 많이 드는 경우: 문서별 자동 최적화로 튜닝 비용을 줄일 수 있다
- RAG 품질을 레이블 없이 측정하려는 연구자: 5가지 내재적 지표가 평가 기준으로 활용된다
논문
- arxiv:2603.25333 — Adaptive Chunking (LREC 2026)
참고 자료
- ekimetrics/adaptive-chunking — GitHub 공식 저장소
관련 문서
- rag — RAG 기초 개념 및 구현 전략
- rag-anything — 멀티모달 RAG 통합 처리 시스템
- lightrag — 지식 그래프 기반 RAG 시스템