이 튜토리얼은 벡터 DB나 임베딩 없이 마크다운 파일 + LLM 에이전트만으로 지식 베이스를 구축하는 방법을 설명한다. DAIR Academy의 실습 워크숍 내용을 기반으로 하며, AI 논문 요약 자료를 예시로 사용한다.
대상: 연구 자료를 체계적으로 관리하고 싶은 개발자, 연구자 소요 시간: 30분 (기본 구조 설정)
llm-knowledge-base — LLM 지식 베이스 개념 개요
폴더 구조 설계
llm-knowledge-base/
raw/ # 원본 소스 (절대 수정 금지)
ai-papers-of-the-week/
wiki/ # LLM이 컴파일한 구조화된 지식
index.md
papers/
concepts/
trends/
maps/
questions/ # 쿼리 결과 파일백 저장소
derived/ # 임시 파생 출력
prompts/ # 반복 가능한 컴파일러 프롬프트raw/는 원본 그대로 보존한다. 수정은 wiki/에만 한다. 에이전트가 만드는 모든 구조화된 문서는 wiki/에 저장된다.
1단계: 원본 소스 수집
raw/에 정제 전 자료를 넣는다. 형식은 자유롭다.
- 웹 아티클 스크랩
- 논문 요약 (arXiv 초록, 위클리 다이제스트)
- GitHub README
- 미팅 메모, 인터뷰 트랜스크립트
예시 원본 노트 한 섹션:
# AI Papers of the Week — Week 17
- AiScientist: 파일 기반 협업으로 장기 연구 에이전트 구현
- Memento: 컨텍스트 압축으로 긴 시퀀스 처리
- AlphaEval: 프로덕션 에이전트 평가 자동화원본 노트가 정제될수록 컴파일 품질이 높아지지만, 완벽할 필요는 없다.
2단계: 인덱스 컴파일
에이전트에게 wiki/index.md 생성을 요청한다.
프롬프트: raw/ 폴더의 자료를 읽고 wiki/index.md를 만들어줘.
인덱스에는 어디서 시작할지, 어떤 페이퍼 페이지·컨셉 페이지가 있는지,
아직 작업이 필요한 부분이 무엇인지 포함해줘.컴파일된 인덱스 예시:
# Index
## Papers
- [AiScientist](papers/aiscientist.md)
- [Memento](papers/memento.md)
- [AlphaEval](papers/alphaeval.md)
- [DeepSeek V4](papers/deepseek-v4.md)
## Concepts
- [File-as-Bus](concepts/file-as-bus.md)
- [Context Compression](concepts/context-compression.md)
## Maps
- [Research Map](maps/research-map.md)3단계: 토픽 페이지 생성
중요한 소스마다 위키 페이지를 하나씩 만든다. 완전한 요약이 아니라, 왜 중요한지, 핵심 아이디어, 다른 페이지와의 연결에 집중한다.
프롬프트: raw/의 AiScientist 논문에 대한 wiki/papers/aiscientist.md 페이지를 만들어줘.
형식: 왜 중요한가 / 핵심 아이디어 / 관련 페이지 링크
분량: 300-500자 한국어좋은 페이퍼 페이지의 기준:
- 논문의 전체 내용을 담으려 하지 않는다
- “이 논문이 다른 것들과 어떻게 연결되는가”에 집중한다
- 반드시 다른 위키 페이지로의 링크를 포함한다
4단계: 컨셉 페이지 생성
여러 소스에 걸쳐 반복 등장하는 아이디어를 하나의 컨셉 페이지로 통합한다. 이 단계가 위키를 단순한 요약 목록 이상으로 만드는 핵심이다.
예시: concepts/context-compression.md → Memento, DeepSeek V4, Neural Computers, Skill-RAG 페이지를 모두 연결
프롬프트: 현재 wiki/ 페이지들을 읽고, 여러 페이지에 걸쳐 반복 등장하는
핵심 개념 3-5개를 찾아서 컨셉 페이지로 만들어줘.
각 컨셉 페이지는 관련 페이퍼 페이지를 모두 링크해야 해.5단계: 질문하고 파일백
실제 질문을 던지고, 유용한 답변을 위키에 저장한다.
질문: 에이전트 메모리와 장기 연구 에이전트를 이해하려면 무엇을 먼저 읽어야 하나?에이전트가 인덱스와 페이지를 읽고 답변한 뒤, wiki/questions/what-to-read-first.md에 저장한다.
파일백의 중요성: 답변이 채팅 히스토리에 사라지지 않고 지식 베이스의 일부가 된다. 다음에 같은 질문이 오면 에이전트가 이 페이지를 읽고 더 빠르게 답변한다.
6단계: 린트 및 유지보수
정기적으로 린트 패스를 실행해 지식 베이스 품질을 유지한다.
프롬프트: wiki/ 를 검사해서 다음을 찾아줘:
- 내용이 얇은 페이지 (300자 미만)
- 깨진 백링크
- 중복된 컨셉
- 아직 컴파일되지 않은 raw/ 소스
- 위키 페이지로 만들 가치가 있는 유용한 질문-답변린트 결과를 바탕으로 얇은 페이지를 보강하거나, 고아 페이지를 삭제하거나, 새 컨셉 페이지를 생성한다.
반복 루프 요약
새 raw 소스 추가
↓
LLM 컴파일러로 wiki 페이지 생성/업데이트
↓
wiki를 읽고 질문에 답변
↓
유용한 답변을 wiki/questions/에 파일백
↓
린트 패스로 구조 개선
↓ (반복)이 루프가 반복될수록 지식 베이스는 더 풍부한 교차 링크와 컨셉 연결을 갖게 된다.
규모 확장 시 고려사항
- 수십~수백 페이지: 이 패턴만으로 충분
- 수천 페이지 이상: 인덱스 탐색이 컨텍스트 창을 초과하기 시작. FTS(전문 검색)나 벡터 DB를 추가하는 것이 자연스러운 확장 경로
- 팀 사용:
raw/와wiki/를 Git으로 관리하면 팀 협업 및 변경 추적 가능
참고 자료
- How to Build an LLM Knowledge Base — DAIR Academy (2026-04-27)
- dair-ai/dair-workshops — GitHub 공식 저장소