목차
Ollama를 설치하고 기본 모델을 실행하는 것은 쉽지만, 기본 설정 그대로 쓰면 성능이 절반도 발휘되지 않는 경우가 많다. 특히 컨텍스트 윈도우는 기본값이 2048~4096 토큰으로 설정되어, 128K까지 지원하는 최신 모델의 능력이 조용히 잘려나간다. 이 글은 Modelfile 파라미터와 서버 환경 변수를 통해 Ollama를 실제 작업 환경에 맞게 조율하는 방법을 다룬다.
누가 읽어야 하는가
- 로컬 LLM으로 RAG, 코드 분석, 긴 문서 처리를 시도하는 개발자
- Ollama가 느리거나 메모리를 너무 많이 쓴다고 느끼는 사용자
- 기본 설정으로는 얻기 어려운 일관된 출력을 원하는 경우
Modelfile: 모델 수준 파라미터 설정
Modelfile은 특정 모델의 동작 방식을 정의하는 설정 파일이다. ollama create 명령으로 커스텀 모델을 만들 때 사용한다.
FROM llama3.1
# 컨텍스트 윈도우 확장 (기본값 2048~4096 → RAG·코드 작업용 8192+)
PARAMETER num_ctx 8192
# 창의성 조절 (0.0~1.0, 낮을수록 일관된 출력)
PARAMETER temperature 0.2
# 샘플링 필터 (min_p: 최솟값 이하 토큰 제거, top_p·top_k와 조합 가능)
PARAMETER min_p 0.05
PARAMETER top_k 40
PARAMETER top_p 0.90# 커스텀 모델 생성 및 실행
ollama create my-llama -f Modelfile
ollama run my-llama핵심 파라미터 요약
| 파라미터 | 기본값 | 설명 |
|---|---|---|
num_ctx | 2048~4096 | 컨텍스트 윈도우 크기 (토큰 수) |
temperature | 0.8 | 출력 다양성 (낮을수록 결정적) |
top_p | 0.9 | 누적 확률 임계값 이하 토큰만 샘플링 |
top_k | 40 | 확률 상위 k개 토큰에서만 샘플링 |
min_p | 0.05 | 최고 확률 대비 min_p 미만 토큰 제거 |
num_predict | -1 | 최대 생성 토큰 수 (-1은 무제한) |
컨텍스트 윈도우: 가장 중요한 설정
기본 num_ctx가 작으면 긴 프롬프트가 조용히 잘려나간다. RAG나 대규모 코드파일을 다룬다면 반드시 늘려야 한다.
- 일반 대화: 4096으로 충분
- RAG·문서 요약: 8192~32768
- 코드 전체 파일 분석: 32768~131072 (모델 지원 범위 내)
단, 컨텍스트가 클수록 VRAM 사용량이 늘어나므로 하드웨어 한계를 감안해야 한다.
서버 환경 변수: 데몬 수준 설정
서버 환경 변수는 Ollama 백그라운드 데몬 자체의 동작을 제어한다. systemd 서비스 파일이나 쉘 프로파일에 설정한다.
# /etc/systemd/system/ollama.service.d/override.conf (Linux)
[Service]
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"주요 서버 환경 변수
| 변수 | 설명 |
|---|---|
OLLAMA_NUM_PARALLEL | 동시에 처리할 요청 수 (멀티 사용자·API 서버용) |
OLLAMA_KEEP_ALIVE | 모델을 메모리에 유지하는 시간 (재로드 오버헤드 감소) |
OLLAMA_KV_CACHE_TYPE | KV 캐시 양자화 타입 (q8_0으로 메모리 절감) |
OLLAMA_FLASH_ATTENTION | Flash Attention 활성화 (긴 컨텍스트 처리 속도 향상) |
OLLAMA_MAX_LOADED_MODELS | 동시에 메모리에 올릴 수 있는 모델 수 |
상황별 권장 설정
RAG 파이프라인
PARAMETER num_ctx 16384
PARAMETER temperature 0.1
PARAMETER min_p 0.05코드 생성·분석
PARAMETER num_ctx 32768
PARAMETER temperature 0.2
PARAMETER top_p 0.95창의적 글쓰기
PARAMETER num_ctx 4096
PARAMETER temperature 0.8
PARAMETER top_p 0.9
PARAMETER top_k 50관련 문서
- local-slm — Ollama 설치 및 로컬 SLM 시작 가이드
- local-slm-tutorial-ai-agents — Ollama와 LangChain으로 AI 에이전트 만들기
참고 자료
- Tweaking Local Language Model Settings with Ollama — KDnuggets (2026-05-31)