PixelRAG는 웹페이지, PDF, 이미지를 텍스트 청크로 파싱하지 않고 스크린샷 타일로 렌더링해 검색하는 RAG 파이프라인이다. 표, 차트, 다이어그램, 레이아웃처럼 HTML 파싱에서 사라지기 쉬운 시각 정보를 보존하는 데 초점을 둔다.
왜 픽셀로 검색하나
일반 RAG는 문서를 텍스트로 추출한 뒤 청크와 임베딩을 만든다. 이 과정에서 표의 셀 관계, 차트 축, 인포그래픽 구조, PDF 레이아웃이 깨질 수 있다. PixelRAG는 문서를 이미지 타일로 만들고, screenshot 데이터에 맞게 LoRA 파인튜닝한 Qwen3-VL-Embedding 계열 모델로 타일을 임베딩한다.
구성 요소
| 명령 | 역할 |
|---|---|
pixelshot | URL, PDF, 로컬 파일을 스크린샷 타일로 렌더링 |
pixelrag chunk | 타일을 검색 가능한 단위로 분리 |
pixelrag embed | 이미지 타일을 벡터로 변환 |
pixelrag build-index | FAISS 인덱스 생성 |
pixelrag serve | 검색 API 서버 실행 |
프로젝트는 828만 개 Wikipedia 페이지의 사전 구축 인덱스와 공개 검색 API도 제공한다. 자체 문서 인덱스는 macOS Apple Silicon 또는 Linux CUDA 환경에서 만들 수 있다.
에이전트 브라우징과의 연결
PixelRAG에는 Claude Code용 pixelbrowse 스킬도 있다. 에이전트가 HTML을 읽는 대신 페이지를 스크린샷으로 보고 요약하게 만드는 방식이다. 복잡한 표나 차트가 많은 페이지에서 텍스트 추출보다 나은 결과를 기대할 수 있다.
uv tool install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins언제 유용한가
기술 문서, PDF 보고서, 위키, 대시보드 캡처처럼 시각 구조가 답의 일부인 문서 검색에 적합하다. 반대로 순수 텍스트 문서가 대부분이면 기존 텍스트 RAG가 더 가볍고 운영하기 쉽다. PixelRAG는 검색 품질을 높이는 대신 렌더링, 이미지 임베딩, 대용량 인덱스 운영 비용을 감수하는 선택이다.
관련 문서
- rag — 검색 증강 생성 기본 개념
- rag-tips-image-indexing — 이미지를 인덱싱 시점에 캡셔닝하는 전략
- rag-anything — 텍스트·이미지·표·수식 통합 멀티모달 RAG
- gemini-file-search — 관리형 멀티모달 파일 검색
참고 자료
- StarTrail-org/PixelRAG — GitHub 공식 저장소