RAGFlow는 검색 증강 생성(RAG, Retrieval-Augmented Generation)과 에이전트 기능을 융합한 오픈소스 RAG 엔진이다. 깊은 문서 이해(deep document understanding) 기술로 비정형 데이터를 고품질 지식으로 변환하며, 사전 구축된 에이전트 템플릿을 통해 복잡한 데이터 파이프라인을 프로덕션 수준의 AI 시스템으로 빠르게 구성할 수 있다. InfiniFlow가 개발했으며 GitHub에서 80,000개 이상의 스타를 획득한 최상위 RAG 오픈소스 프로젝트 중 하나다. 클라우드 서비스와 셀프 호스팅 모두 지원한다.
https://github.com/infiniflow/ragflow
소개
기존 RAG 시스템의 가장 큰 한계는 문서 파싱 품질이다. 단순 텍스트 추출 방식으로는 표, 이미지, 스캔 문서, 레이아웃이 복잡한 PDF 등을 제대로 처리하지 못해 “garbage in, garbage out” 문제가 발생한다. 또한 RAG와 에이전트 기능이 분리된 구조에서는 복잡한 다단계 질의를 처리하기 어렵다.
RAGFlow는 이 문제를 “Quality in, quality out” 철학으로 해결한다. 딥러닝 기반의 문서 이해 엔진(DeepDoc)이 비정형 문서를 정밀하게 파싱하고, 수렴형 컨텍스트 엔진(converged context engine)이 RAG와 에이전트 워크플로를 단일 레이어에서 처리한다. 2026년 4월 기준 DeepSeek v4, Gemini 3 Pro, GPT-5 시리즈 등 최신 LLM을 지원하며, GitHub 스타 8만 개를 넘어선 업계 주요 오픈소스 RAG 플랫폼이다.
주요 기능
깊은 문서 이해 기반 지식 추출
DeepDoc 엔진이 PDF, Word, Excel, 이미지, 스캔본, 구조화 데이터, 웹페이지 등 이기종 문서를 처리한다. 멀티모달 모델을 활용해 PDF·DOCX 내 이미지도 해석하며, 복잡한 레이아웃도 의미 단위로 정확히 청킹(chunking)한다.
템플릿 기반 청킹
직접 확인 가능한 청킹 시각화 인터페이스를 제공해 사람이 개입해 조정할 수 있다. 다양한 템플릿 옵션으로 문서 유형별 최적 청킹 전략을 적용한다.
환각 저감을 위한 근거 기반 인용
답변에 사용된 핵심 참조를 빠르게 확인하고 추적할 수 있는 인용 시스템을 제공한다. 텍스트 청킹 가시화로 출처 투명성을 확보한다.
에이전트 워크플로 및 MCP 지원
사전 구축된 에이전트 템플릿과 오케스트레이션 가능한 인제스트(ingestion) 파이프라인을 제공한다. MCP(Model Context Protocol) 연동을 지원하며, Python/JavaScript 코드 실행기 컴포넌트도 포함되어 있다.
다양한 데이터 소스 연동
Confluence, S3, Notion, Discord, Google Drive 등 외부 데이터 소스와의 동기화를 지원한다. 크로스 언어 질의(cross-language query)도 가능하다.
다중 리콜 및 재순위화
다중 검색 전략(multiple recall)과 퓨전 재순위화(fused re-ranking)를 결합해 검색 정확도를 높인다. 구성 가능한 LLM 및 임베딩 모델을 선택할 수 있다.
아키텍처
RAGFlow는 수렴형 컨텍스트 엔진을 중심으로 설계되었다. 문서 파싱 레이어(DeepDoc), 벡터 스토어(Elasticsearch 또는 Infinity), 오브젝트 스토리지(MinIO), 관계형 DB(MySQL), 캐시(Redis)가 Docker Compose로 통합 구성된다. 에이전트 레이어는 사전 빌드된 템플릿과 커스텀 워크플로를 모두 지원하며, 직관적인 REST API로 외부 시스템과 연동된다.
문서 엔진으로 기본값인 Elasticsearch 대신 InfiniFlow가 자체 개발한 경량 DB인 Infinity로 전환하는 옵션도 제공한다.
설치 및 빠른 시작
사전 요구사항
- CPU 4코어 이상 / RAM 16GB 이상 / 디스크 50GB 이상
- Docker 24.0.0 이상, Docker Compose v2.26.1 이상
Docker로 시작하기
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
docker compose -f docker-compose.yml up -d서버가 실행되면 브라우저에서 http://서버IP로 접속한다. 클라우드 서비스는 cloud.ragflow.io에서 바로 사용할 수 있다.
라이선스
Apache License 2.0