AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Adaptive Chunking – RAG에서 문서별 최적 청킹 전략 자동 선택

Adaptive Chunking은 RAG(검색 증강 생성) 파이프라인에서 모든 문서에 동일한 청킹(chunking) 방식을 적용하는 대신, 문서별로 여러 청킹 전략을 평가해 자동으로 최적 방법을 선택하는 프레임워크다. LREC 2026에서 발표됐으며, MIT 라이선스 오픈소스 라이브러리로 공개됐다.

왜 하나의 청킹 방법만으로는 부족한가

기술 문서, 법률 문서, 지속가능성 보고서는 구조와 특성이 완전히 다르다. 고정된 크기로 자르는 방식은 기술 문서의 코드 블록을 중간에 끊고, 법률 문서의 조항 구조를 무시한다. Adaptive Chunking은 “RAG 파이프라인에 최적인 청킹 방식은 문서마다 다르다”는 전제에서 출발한다.

핵심 메커니즘: 5가지 내재적 품질 지표

청킹 결과를 외부 레이블 없이 문서 자체 기준으로 평가한다:

지표설명
Size compliance청크 크기가 목표 범위 내에 있는지
Intrachunk cohesion청크 내 문장들이 의미적으로 응집되어 있는지
Contextual coherence청크가 전후 맥락과 자연스럽게 연결되는지
Block integrity코드 블록, 표, 리스트 등 구조가 온전하게 유지되는지
Filtered missing reference error참조 링크가 끊기지 않았는지

지원 청킹 방법

  • 고정 크기 청킹(Fixed-size)
  • 재귀적 분할(Recursive splitting) — 설정 가능한 구분자, 병합 모드, 오버랩
  • 의미론적 청킹(Semantic chunking)
  • 사용자 정의 청킹 방법 플러그인 지원

PDF 파싱 백엔드

백엔드특징
Docling오픈소스, 기본값
PyMuPDF경량
Azure Document Intelligence클라우드, 고정밀

Excel 파일도 지원한다.

설치

pip install adaptive-chunking
from adaptive_chunking import AdaptiveChunker

chunker = AdaptiveChunker()
chunks = chunker.chunk(document)

RAG 평가 파이프라인

하이브리드 검색(키워드 + 임베딩)과 맞춤형 검색 완전성 지표(retrieval completeness metric) 및 정답 정확도(answer correctness scoring)를 포함한 end-to-end 평가 파이프라인을 함께 제공한다.

누가, 어떤 경우에 쓰면 좋을까

  • 멀티도메인 RAG 시스템을 구축하는 팀: 기술, 법률, 재무 등 서로 다른 성격의 문서를 하나의 파이프라인으로 처리해야 할 때
  • 청킹 전략을 수동으로 조정하는 데 시간이 많이 드는 경우: 문서별 자동 최적화로 튜닝 비용을 줄일 수 있다
  • RAG 품질을 레이블 없이 측정하려는 연구자: 5가지 내재적 지표가 평가 기준으로 활용된다

논문

  • arxiv:2603.25333 — Adaptive Chunking (LREC 2026)

참고 자료

관련 문서

  • rag — RAG 기초 개념 및 구현 전략
  • rag-anything — 멀티모달 RAG 통합 처리 시스템
  • lightrag — 지식 그래프 기반 RAG 시스템


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)