AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

LLM 지식 베이스 튜토리얼 – raw 소스를 구조화된 위키로 컴파일하는 에이전트 워크플로 구축

이 튜토리얼은 벡터 DB나 임베딩 없이 마크다운 파일 + LLM 에이전트만으로 지식 베이스를 구축하는 방법을 설명한다. DAIR Academy의 실습 워크숍 내용을 기반으로 하며, AI 논문 요약 자료를 예시로 사용한다.

대상: 연구 자료를 체계적으로 관리하고 싶은 개발자, 연구자 소요 시간: 30분 (기본 구조 설정)

llm-knowledge-base — LLM 지식 베이스 개념 개요

폴더 구조 설계

llm-knowledge-base/
  raw/                    # 원본 소스 (절대 수정 금지)
    ai-papers-of-the-week/
  wiki/                   # LLM이 컴파일한 구조화된 지식
    index.md
    papers/
    concepts/
    trends/
    maps/
    questions/            # 쿼리 결과 파일백 저장소
  derived/                # 임시 파생 출력
  prompts/                # 반복 가능한 컴파일러 프롬프트

raw/는 원본 그대로 보존한다. 수정은 wiki/에만 한다. 에이전트가 만드는 모든 구조화된 문서는 wiki/에 저장된다.

1단계: 원본 소스 수집

raw/에 정제 전 자료를 넣는다. 형식은 자유롭다.

  • 웹 아티클 스크랩
  • 논문 요약 (arXiv 초록, 위클리 다이제스트)
  • GitHub README
  • 미팅 메모, 인터뷰 트랜스크립트

예시 원본 노트 한 섹션:

# AI Papers of the Week — Week 17

- AiScientist: 파일 기반 협업으로 장기 연구 에이전트 구현
- Memento: 컨텍스트 압축으로 긴 시퀀스 처리
- AlphaEval: 프로덕션 에이전트 평가 자동화

원본 노트가 정제될수록 컴파일 품질이 높아지지만, 완벽할 필요는 없다.

2단계: 인덱스 컴파일

에이전트에게 wiki/index.md 생성을 요청한다.

프롬프트: raw/ 폴더의 자료를 읽고 wiki/index.md를 만들어줘.
인덱스에는 어디서 시작할지, 어떤 페이퍼 페이지·컨셉 페이지가 있는지,
아직 작업이 필요한 부분이 무엇인지 포함해줘.

컴파일된 인덱스 예시:

# Index

## Papers
- [AiScientist](papers/aiscientist.md)
- [Memento](papers/memento.md)
- [AlphaEval](papers/alphaeval.md)
- [DeepSeek V4](papers/deepseek-v4.md)

## Concepts
- [File-as-Bus](concepts/file-as-bus.md)
- [Context Compression](concepts/context-compression.md)

## Maps
- [Research Map](maps/research-map.md)

3단계: 토픽 페이지 생성

중요한 소스마다 위키 페이지를 하나씩 만든다. 완전한 요약이 아니라, 왜 중요한지, 핵심 아이디어, 다른 페이지와의 연결에 집중한다.

프롬프트: raw/의 AiScientist 논문에 대한 wiki/papers/aiscientist.md 페이지를 만들어줘.
형식: 왜 중요한가 / 핵심 아이디어 / 관련 페이지 링크
분량: 300-500자 한국어

좋은 페이퍼 페이지의 기준:

  • 논문의 전체 내용을 담으려 하지 않는다
  • “이 논문이 다른 것들과 어떻게 연결되는가”에 집중한다
  • 반드시 다른 위키 페이지로의 링크를 포함한다

4단계: 컨셉 페이지 생성

여러 소스에 걸쳐 반복 등장하는 아이디어를 하나의 컨셉 페이지로 통합한다. 이 단계가 위키를 단순한 요약 목록 이상으로 만드는 핵심이다.

예시: concepts/context-compression.md → Memento, DeepSeek V4, Neural Computers, Skill-RAG 페이지를 모두 연결

프롬프트: 현재 wiki/ 페이지들을 읽고, 여러 페이지에 걸쳐 반복 등장하는
핵심 개념 3-5개를 찾아서 컨셉 페이지로 만들어줘.
각 컨셉 페이지는 관련 페이퍼 페이지를 모두 링크해야 해.

5단계: 질문하고 파일백

실제 질문을 던지고, 유용한 답변을 위키에 저장한다.

질문: 에이전트 메모리와 장기 연구 에이전트를 이해하려면 무엇을 먼저 읽어야 하나?

에이전트가 인덱스와 페이지를 읽고 답변한 뒤, wiki/questions/what-to-read-first.md에 저장한다.

파일백의 중요성: 답변이 채팅 히스토리에 사라지지 않고 지식 베이스의 일부가 된다. 다음에 같은 질문이 오면 에이전트가 이 페이지를 읽고 더 빠르게 답변한다.

6단계: 린트 및 유지보수

정기적으로 린트 패스를 실행해 지식 베이스 품질을 유지한다.

프롬프트: wiki/ 를 검사해서 다음을 찾아줘:
- 내용이 얇은 페이지 (300자 미만)
- 깨진 백링크
- 중복된 컨셉
- 아직 컴파일되지 않은 raw/ 소스
- 위키 페이지로 만들 가치가 있는 유용한 질문-답변

린트 결과를 바탕으로 얇은 페이지를 보강하거나, 고아 페이지를 삭제하거나, 새 컨셉 페이지를 생성한다.

반복 루프 요약

새 raw 소스 추가
      ↓
LLM 컴파일러로 wiki 페이지 생성/업데이트
      ↓
wiki를 읽고 질문에 답변
      ↓
유용한 답변을 wiki/questions/에 파일백
      ↓
린트 패스로 구조 개선
      ↓ (반복)

이 루프가 반복될수록 지식 베이스는 더 풍부한 교차 링크와 컨셉 연결을 갖게 된다.

규모 확장 시 고려사항

  • 수십~수백 페이지: 이 패턴만으로 충분
  • 수천 페이지 이상: 인덱스 탐색이 컨텍스트 창을 초과하기 시작. FTS(전문 검색)나 벡터 DB를 추가하는 것이 자연스러운 확장 경로
  • 팀 사용: raw/wiki/를 Git으로 관리하면 팀 협업 및 변경 추적 가능

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)