RAG-Anything – 텍스트·이미지·표·수식을 통합 처리하는 올인원 멀티모달 RAG 시스템

누구에게 유용한가?
기존 RAG와의 차이
핵심 기능
문서 파싱
멀티모달 분석 엔진
멀티모달 지식 그래프
VLM 강화 쿼리
설치
라이선스
관련 문서

기존 RAG 시스템은 텍스트 중심으로 설계되어 있어, 실제 문서에 포함된 이미지·표·수식·차트는 처리하지 못하거나 별도 도구를 조합해야 했다. RAG-Anything은 홍콩대학교 HKUDS 팀이 lightrag 위에 구축한 올인원 멀티모달 RAG 프레임워크로, PDF·Office 문서·이미지 등 다양한 형식에서 모든 콘텐츠 유형을 단일 파이프라인으로 인덱싱하고 쿼리할 수 있다. 논문은 arXiv(2510.12323)로 공개되었으며, GitHub ★1K+.

GitHub: https://github.com/HKUDS/RAG-Anything 논문: https://arxiv.org/abs/2510.12323

누구에게 유용한가?

학술·기술 문서 Q&A 시스템 개발자: 수식·그림·표가 뒤섞인 논문이나 기술 매뉴얼을 RAG로 검색해야 할 때
기업 지식 베이스 구축 팀: 재무 보고서·프레젠테이션·이미지 포함 문서를 하나의 파이프라인으로 통합하고 싶을 때
LightRAG를 멀티모달로 확장하려는 개발자: 기존 LightRAG 기반 프로젝트에 이미지·표 처리 능력을 추가할 때

기존 RAG와의 차이

항목	텍스트 전용 RAG	RAG-Anything
지원 콘텐츠	텍스트만	텍스트, 이미지, 표, 수식, 차트
지식 구조	벡터 인덱스	멀티모달 지식 그래프
문서 형식	PDF(텍스트 추출)	PDF, DOCX, PPTX, XLSX, 이미지
이미지 처리	무시 또는 별도 파이프라인	VLM으로 캡션 생성 후 통합 인덱싱
쿼리 방식	텍스트 쿼리	텍스트 + 멀티모달 쿼리

핵심 기능

문서 파싱

MinerU 통합: 복잡한 레이아웃에서도 문서 구조와 의미를 정확히 추출
자동 콘텐츠 분류: 텍스트 블록·시각 요소·표·수식·특수 콘텐츠를 자동으로 식별하고 전용 처리 채널로 라우팅
범용 형식 지원: PDF, DOC/DOCX, PPT/PPTX, XLS/XLSX, 이미지 등 주요 문서 형식 커버

멀티모달 분석 엔진

시각 콘텐츠 분석기: VLM(Vision Language Model)으로 이미지를 분석해 문맥 인식 캡션을 생성하고, 공간 관계와 계층 구조를 추출
구조화 데이터 해석기: 표 데이터에서 통계 패턴과 의미 관계를 인식
수식 처리기: 수학·과학 표현식의 의미를 보존하며 검색 가능 형태로 변환

멀티모달 지식 그래프

문서 내 엔티티와 관계를 텍스트·이미지·표에 걸쳐 추출해 단일 지식 그래프로 구성한다. 교차 모달 관계 발견이 가능하므로, 이미지에서 언급된 개념과 본문 텍스트의 개념을 연결한 답변을 생성할 수 있다.

VLM 강화 쿼리

문서에 이미지가 포함된 경우, 쿼리 단계에서 VLM을 통합해 시각적 맥락과 텍스트 맥락을 결합한 심층 분석이 가능하다.

설치

pip install raganything

Python 3.10+ 필요. uv 기반 프로젝트를 공식 지원한다.

라이선스

MIT

AI Sparkup