AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

RAG-Anything – 텍스트·이미지·표·수식을 통합 처리하는 올인원 멀티모달 RAG 시스템

기존 RAG 시스템은 텍스트 중심으로 설계되어 있어, 실제 문서에 포함된 이미지·표·수식·차트는 처리하지 못하거나 별도 도구를 조합해야 했다. RAG-Anything은 홍콩대학교 HKUDS 팀이 lightrag 위에 구축한 올인원 멀티모달 RAG 프레임워크로, PDF·Office 문서·이미지 등 다양한 형식에서 모든 콘텐츠 유형을 단일 파이프라인으로 인덱싱하고 쿼리할 수 있다. 논문은 arXiv(2510.12323)로 공개되었으며, GitHub ★1K+.

GitHub: https://github.com/HKUDS/RAG-Anything 논문: https://arxiv.org/abs/2510.12323

누구에게 유용한가?

  • 학술·기술 문서 Q&A 시스템 개발자: 수식·그림·표가 뒤섞인 논문이나 기술 매뉴얼을 RAG로 검색해야 할 때
  • 기업 지식 베이스 구축 팀: 재무 보고서·프레젠테이션·이미지 포함 문서를 하나의 파이프라인으로 통합하고 싶을 때
  • LightRAG를 멀티모달로 확장하려는 개발자: 기존 LightRAG 기반 프로젝트에 이미지·표 처리 능력을 추가할 때

기존 RAG와의 차이

항목텍스트 전용 RAGRAG-Anything
지원 콘텐츠텍스트만텍스트, 이미지, 표, 수식, 차트
지식 구조벡터 인덱스멀티모달 지식 그래프
문서 형식PDF(텍스트 추출)PDF, DOCX, PPTX, XLSX, 이미지
이미지 처리무시 또는 별도 파이프라인VLM으로 캡션 생성 후 통합 인덱싱
쿼리 방식텍스트 쿼리텍스트 + 멀티모달 쿼리

핵심 기능

문서 파싱

  • MinerU 통합: 복잡한 레이아웃에서도 문서 구조와 의미를 정확히 추출
  • 자동 콘텐츠 분류: 텍스트 블록·시각 요소·표·수식·특수 콘텐츠를 자동으로 식별하고 전용 처리 채널로 라우팅
  • 범용 형식 지원: PDF, DOC/DOCX, PPT/PPTX, XLS/XLSX, 이미지 등 주요 문서 형식 커버

멀티모달 분석 엔진

  • 시각 콘텐츠 분석기: VLM(Vision Language Model)으로 이미지를 분석해 문맥 인식 캡션을 생성하고, 공간 관계와 계층 구조를 추출
  • 구조화 데이터 해석기: 표 데이터에서 통계 패턴과 의미 관계를 인식
  • 수식 처리기: 수학·과학 표현식의 의미를 보존하며 검색 가능 형태로 변환

멀티모달 지식 그래프

문서 내 엔티티와 관계를 텍스트·이미지·표에 걸쳐 추출해 단일 지식 그래프로 구성한다. 교차 모달 관계 발견이 가능하므로, 이미지에서 언급된 개념과 본문 텍스트의 개념을 연결한 답변을 생성할 수 있다.

VLM 강화 쿼리

문서에 이미지가 포함된 경우, 쿼리 단계에서 VLM을 통합해 시각적 맥락과 텍스트 맥락을 결합한 심층 분석이 가능하다.

설치

pip install raganything

Python 3.10+ 필요. uv 기반 프로젝트를 공식 지원한다.

라이선스

MIT

관련 문서

  • lightrag — RAG-Anything의 기반이 되는 지식 그래프 RAG 시스템
  • rag — RAG 기술 개요 및 장문 컨텍스트 처리 기법
  • skill-rag — RAG 실패 상태 진단 및 스킬 라우팅 프레임워크
  • mass-rag — 멀티 에이전트 합성 RAG 프레임워크


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)