기존 RAG 시스템은 텍스트 중심으로 설계되어 있어, 실제 문서에 포함된 이미지·표·수식·차트는 처리하지 못하거나 별도 도구를 조합해야 했다. RAG-Anything은 홍콩대학교 HKUDS 팀이 lightrag 위에 구축한 올인원 멀티모달 RAG 프레임워크로, PDF·Office 문서·이미지 등 다양한 형식에서 모든 콘텐츠 유형을 단일 파이프라인으로 인덱싱하고 쿼리할 수 있다. 논문은 arXiv(2510.12323)로 공개되었으며, GitHub ★1K+.
GitHub: https://github.com/HKUDS/RAG-Anything 논문: https://arxiv.org/abs/2510.12323
누구에게 유용한가?
- 학술·기술 문서 Q&A 시스템 개발자: 수식·그림·표가 뒤섞인 논문이나 기술 매뉴얼을 RAG로 검색해야 할 때
- 기업 지식 베이스 구축 팀: 재무 보고서·프레젠테이션·이미지 포함 문서를 하나의 파이프라인으로 통합하고 싶을 때
- LightRAG를 멀티모달로 확장하려는 개발자: 기존 LightRAG 기반 프로젝트에 이미지·표 처리 능력을 추가할 때
기존 RAG와의 차이
| 항목 | 텍스트 전용 RAG | RAG-Anything |
|---|---|---|
| 지원 콘텐츠 | 텍스트만 | 텍스트, 이미지, 표, 수식, 차트 |
| 지식 구조 | 벡터 인덱스 | 멀티모달 지식 그래프 |
| 문서 형식 | PDF(텍스트 추출) | PDF, DOCX, PPTX, XLSX, 이미지 |
| 이미지 처리 | 무시 또는 별도 파이프라인 | VLM으로 캡션 생성 후 통합 인덱싱 |
| 쿼리 방식 | 텍스트 쿼리 | 텍스트 + 멀티모달 쿼리 |
핵심 기능
문서 파싱
- MinerU 통합: 복잡한 레이아웃에서도 문서 구조와 의미를 정확히 추출
- 자동 콘텐츠 분류: 텍스트 블록·시각 요소·표·수식·특수 콘텐츠를 자동으로 식별하고 전용 처리 채널로 라우팅
- 범용 형식 지원: PDF, DOC/DOCX, PPT/PPTX, XLS/XLSX, 이미지 등 주요 문서 형식 커버
멀티모달 분석 엔진
- 시각 콘텐츠 분석기: VLM(Vision Language Model)으로 이미지를 분석해 문맥 인식 캡션을 생성하고, 공간 관계와 계층 구조를 추출
- 구조화 데이터 해석기: 표 데이터에서 통계 패턴과 의미 관계를 인식
- 수식 처리기: 수학·과학 표현식의 의미를 보존하며 검색 가능 형태로 변환
멀티모달 지식 그래프
문서 내 엔티티와 관계를 텍스트·이미지·표에 걸쳐 추출해 단일 지식 그래프로 구성한다. 교차 모달 관계 발견이 가능하므로, 이미지에서 언급된 개념과 본문 텍스트의 개념을 연결한 답변을 생성할 수 있다.
VLM 강화 쿼리
문서에 이미지가 포함된 경우, 쿼리 단계에서 VLM을 통합해 시각적 맥락과 텍스트 맥락을 결합한 심층 분석이 가능하다.
설치
pip install raganythingPython 3.10+ 필요. uv 기반 프로젝트를 공식 지원한다.
라이선스
MIT