Ollama 팁 – 로컬 LLM 파라미터를 세밀하게 조정하는 실전 가이드

누가 읽어야 하는가
Modelfile: 모델 수준 파라미터 설정
핵심 파라미터 요약
컨텍스트 윈도우: 가장 중요한 설정
서버 환경 변수: 데몬 수준 설정
주요 서버 환경 변수
상황별 권장 설정
RAG 파이프라인
코드 생성·분석
창의적 글쓰기
관련 문서
참고 자료

Ollama를 설치하고 기본 모델을 실행하는 것은 쉽지만, 기본 설정 그대로 쓰면 성능이 절반도 발휘되지 않는 경우가 많다. 특히 컨텍스트 윈도우는 기본값이 2048~4096 토큰으로 설정되어, 128K까지 지원하는 최신 모델의 능력이 조용히 잘려나간다. 이 글은 Modelfile 파라미터와 서버 환경 변수를 통해 Ollama를 실제 작업 환경에 맞게 조율하는 방법을 다룬다.

누가 읽어야 하는가

로컬 LLM으로 RAG, 코드 분석, 긴 문서 처리를 시도하는 개발자
Ollama가 느리거나 메모리를 너무 많이 쓴다고 느끼는 사용자
기본 설정으로는 얻기 어려운 일관된 출력을 원하는 경우

Modelfile: 모델 수준 파라미터 설정

Modelfile은 특정 모델의 동작 방식을 정의하는 설정 파일이다. ollama create 명령으로 커스텀 모델을 만들 때 사용한다.

FROM llama3.1

# 컨텍스트 윈도우 확장 (기본값 2048~4096 → RAG·코드 작업용 8192+)
PARAMETER num_ctx 8192

# 창의성 조절 (0.0~1.0, 낮을수록 일관된 출력)
PARAMETER temperature 0.2

# 샘플링 필터 (min_p: 최솟값 이하 토큰 제거, top_p·top_k와 조합 가능)
PARAMETER min_p 0.05
PARAMETER top_k 40
PARAMETER top_p 0.90

# 커스텀 모델 생성 및 실행
ollama create my-llama -f Modelfile
ollama run my-llama

핵심 파라미터 요약

파라미터	기본값	설명
`num_ctx`	2048~4096	컨텍스트 윈도우 크기 (토큰 수)
`temperature`	0.8	출력 다양성 (낮을수록 결정적)
`top_p`	0.9	누적 확률 임계값 이하 토큰만 샘플링
`top_k`	40	확률 상위 k개 토큰에서만 샘플링
`min_p`	0.05	최고 확률 대비 min_p 미만 토큰 제거
`num_predict`	-1	최대 생성 토큰 수 (-1은 무제한)

컨텍스트 윈도우: 가장 중요한 설정

기본 num_ctx가 작으면 긴 프롬프트가 조용히 잘려나간다. RAG나 대규모 코드파일을 다룬다면 반드시 늘려야 한다.

일반 대화: 4096으로 충분
RAG·문서 요약: 8192~32768
코드 전체 파일 분석: 32768~131072 (모델 지원 범위 내)

단, 컨텍스트가 클수록 VRAM 사용량이 늘어나므로 하드웨어 한계를 감안해야 한다.

서버 환경 변수: 데몬 수준 설정

서버 환경 변수는 Ollama 백그라운드 데몬 자체의 동작을 제어한다. systemd 서비스 파일이나 쉘 프로파일에 설정한다.

# /etc/systemd/system/ollama.service.d/override.conf (Linux)
[Service]
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"

주요 서버 환경 변수

변수	설명
`OLLAMA_NUM_PARALLEL`	동시에 처리할 요청 수 (멀티 사용자·API 서버용)
`OLLAMA_KEEP_ALIVE`	모델을 메모리에 유지하는 시간 (재로드 오버헤드 감소)
`OLLAMA_KV_CACHE_TYPE`	KV 캐시 양자화 타입 (`q8_0`으로 메모리 절감)
`OLLAMA_FLASH_ATTENTION`	Flash Attention 활성화 (긴 컨텍스트 처리 속도 향상)
`OLLAMA_MAX_LOADED_MODELS`	동시에 메모리에 올릴 수 있는 모델 수

상황별 권장 설정

RAG 파이프라인

PARAMETER num_ctx 16384
PARAMETER temperature 0.1
PARAMETER min_p 0.05

코드 생성·분석

PARAMETER num_ctx 32768
PARAMETER temperature 0.2
PARAMETER top_p 0.95

창의적 글쓰기

PARAMETER num_ctx 4096
PARAMETER temperature 0.8
PARAMETER top_p 0.9
PARAMETER top_k 50

참고 자료

Tweaking Local Language Model Settings with Ollama — KDnuggets (2026-05-31)

Like?

AI Sparkup