LLM 지식 베이스(LLM Knowledge Base)는 LLM을 컴파일러처럼 활용해 정제되지 않은 원본 자료(raw source)를 구조화된 위키 문서로 변환하고, 에이전트가 쿼리 결과를 다시 지식 베이스에 축적함으로써 시스템이 자기 개선하는 지식 관리 아키텍처다. Elvis Saravia(DAIR AI)가 Andrej Karpathy의 자율 개선 루프 개념을 실용적인 워크플로로 구체화했다.
전통 RAG와의 차이
전통적인 RAG(Retrieval-Augmented Generation) 시스템은 검색에 먼저 집중한다—임베딩, 벡터 데이터베이스, 청킹 전략을 갖추고 나서야 지식을 활용할 수 있다. LLM 지식 베이스는 다르게 접근한다.
| 구분 | 전통 RAG | LLM 지식 베이스 |
|---|---|---|
| 핵심 기술 | 임베딩 + 벡터 DB | 마크다운 파일 + 에이전트 |
| 지식 형태 | 청크 조각 | 구조화된 위키 페이지 |
| 쿼리 결과 | 일회성 답변 | 위키로 파일백(file-back) |
| 개선 루프 | 수동 | 에이전트 자동 |
| 시작 복잡도 | 높음 | 낮음 |
소규모(수십~수백 문서)에서는 벡터 DB 없이 이 패턴만으로도 충분히 실용적이다.
핵심 아이디어: LLM을 컴파일러로
raw/ (원본 소스) → [LLM 컴파일러] → wiki/ (구조화된 지식)
↓
derived/ (쿼리 결과)
↓
wiki/에 파일백- raw/ — 웹 아티클, 논문 요약, GitHub README, 미팅 메모 등 정제 전 자료
- wiki/ — 에이전트가 컴파일한 인덱스·페이퍼·개념·트렌드 페이지
- derived/ — 쿼리 답변, 리딩 로드맵, 개요 등 파생 출력
- prompts/ — 반복 가능한 컴파일러 프롬프트
핵심 워크플로
- 인제스트 — raw/ 에 원본 자료 추가
- 컴파일 — LLM이 wiki/ 인덱스와 페이지 생성
- 쿼리 — wiki/ 를 읽고 답변 합성
- 파일백 — 유용한 답변을 wiki/ 에 저장
- 린트 — 고아 페이지, 깨진 링크, 미컴파일 소스 점검
이 루프가 반복될수록 지식 베이스는 더 많은 구조와 교차 링크를 갖게 된다.
지식 페이지 유형
- 인덱스 페이지 — 전체 wiki의 진입점. 어디서 시작할지, 어떤 페이지가 있는지 안내
- 페이퍼/토픽 페이지 — 개별 소스(논문, 도구, 개념) 하나당 하나. 왜 중요한지, 핵심 아이디어, 연결 고리를 설명
- 컨셉 페이지 — 여러 소스에 걸쳐 반복 등장하는 아이디어를 통합. 개별 페이지보다 고부가가치
- 질문 페이지 — 쿼리 답변을 파일백한 결과. 지식 재활용의 핵심
어떤 경우에 적합한가
- 연구 주제를 정기적으로 모니터링하는 사람 (논문, 뉴스, 기술 트렌드)
- 팀 내 공유 지식 베이스를 관리해야 하는 경우
- 벡터 DB 도입 전에 단순하고 감사 가능한 지식 시스템이 필요한 경우
- 에이전트가 장기간에 걸쳐 축적한 지식을 활용해야 하는 워크플로
한계
- 규모 한계: 수천 페이지 이상이 되면 컨텍스트 창 제약으로 인덱스 탐색이 어려워진다. 이 시점에 RAG나 FTS(전문 검색)를 추가하는 것이 자연스러운 확장 경로
- 일관성 유지: 에이전트가 만드는 페이지 품질은 컴파일러 프롬프트 품질에 크게 의존한다
- 중복 제거: 같은 개념이 여러 페이지에 중복 등장하지 않도록 린트 단계가 필수
관련 문서
- llm-knowledge-base-tutorial-build — raw 소스에서 위키를 컴파일하는 6단계 실습 가이드
- rag — 검색 증강 생성 기법 개요
- autoresearch — Karpathy의 자율 개선 루프 프레임워크
- lightrag — 지식 그래프 기반 RAG 시스템
참고 자료
- How to Build an LLM Knowledge Base — DAIR Academy (2026-04-27)
- LLM Knowledge Bases (Karpathy) — DAIR Academy
- dair-ai/dair-workshops — GitHub 공식 저장소