PixelRAG – 문서를 스크린샷 타일로 검색하는 픽셀 네이티브 RAG

왜 픽셀로 검색하나
구성 요소
에이전트 브라우징과의 연결
언제 유용한가
관련 문서
참고 자료

PixelRAG는 웹페이지, PDF, 이미지를 텍스트 청크로 파싱하지 않고 스크린샷 타일로 렌더링해 검색하는 RAG 파이프라인이다. 표, 차트, 다이어그램, 레이아웃처럼 HTML 파싱에서 사라지기 쉬운 시각 정보를 보존하는 데 초점을 둔다.

왜 픽셀로 검색하나

일반 RAG는 문서를 텍스트로 추출한 뒤 청크와 임베딩을 만든다. 이 과정에서 표의 셀 관계, 차트 축, 인포그래픽 구조, PDF 레이아웃이 깨질 수 있다. PixelRAG는 문서를 이미지 타일로 만들고, screenshot 데이터에 맞게 LoRA 파인튜닝한 Qwen3-VL-Embedding 계열 모델로 타일을 임베딩한다.

구성 요소

명령	역할
`pixelshot`	URL, PDF, 로컬 파일을 스크린샷 타일로 렌더링
`pixelrag chunk`	타일을 검색 가능한 단위로 분리
`pixelrag embed`	이미지 타일을 벡터로 변환
`pixelrag build-index`	FAISS 인덱스 생성
`pixelrag serve`	검색 API 서버 실행

프로젝트는 828만 개 Wikipedia 페이지의 사전 구축 인덱스와 공개 검색 API도 제공한다. 자체 문서 인덱스는 macOS Apple Silicon 또는 Linux CUDA 환경에서 만들 수 있다.

에이전트 브라우징과의 연결

PixelRAG에는 Claude Code용 pixelbrowse 스킬도 있다. 에이전트가 HTML을 읽는 대신 페이지를 스크린샷으로 보고 요약하게 만드는 방식이다. 복잡한 표나 차트가 많은 페이지에서 텍스트 추출보다 나은 결과를 기대할 수 있다.

uv tool install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins

언제 유용한가

기술 문서, PDF 보고서, 위키, 대시보드 캡처처럼 시각 구조가 답의 일부인 문서 검색에 적합하다. 반대로 순수 텍스트 문서가 대부분이면 기존 텍스트 RAG가 더 가볍고 운영하기 쉽다. PixelRAG는 검색 품질을 높이는 대신 렌더링, 이미지 임베딩, 대용량 인덱스 운영 비용을 감수하는 선택이다.

참고 자료

StarTrail-org/PixelRAG — GitHub 공식 저장소

Like?

AI Sparkup