AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Ollama 팁 – 로컬 LLM 파라미터를 세밀하게 조정하는 실전 가이드

Ollama를 설치하고 기본 모델을 실행하는 것은 쉽지만, 기본 설정 그대로 쓰면 성능이 절반도 발휘되지 않는 경우가 많다. 특히 컨텍스트 윈도우는 기본값이 2048~4096 토큰으로 설정되어, 128K까지 지원하는 최신 모델의 능력이 조용히 잘려나간다. 이 글은 Modelfile 파라미터와 서버 환경 변수를 통해 Ollama를 실제 작업 환경에 맞게 조율하는 방법을 다룬다.

누가 읽어야 하는가

  • 로컬 LLM으로 RAG, 코드 분석, 긴 문서 처리를 시도하는 개발자
  • Ollama가 느리거나 메모리를 너무 많이 쓴다고 느끼는 사용자
  • 기본 설정으로는 얻기 어려운 일관된 출력을 원하는 경우

Modelfile: 모델 수준 파라미터 설정

Modelfile은 특정 모델의 동작 방식을 정의하는 설정 파일이다. ollama create 명령으로 커스텀 모델을 만들 때 사용한다.

FROM llama3.1

# 컨텍스트 윈도우 확장 (기본값 2048~4096 → RAG·코드 작업용 8192+)
PARAMETER num_ctx 8192

# 창의성 조절 (0.0~1.0, 낮을수록 일관된 출력)
PARAMETER temperature 0.2

# 샘플링 필터 (min_p: 최솟값 이하 토큰 제거, top_p·top_k와 조합 가능)
PARAMETER min_p 0.05
PARAMETER top_k 40
PARAMETER top_p 0.90
# 커스텀 모델 생성 및 실행
ollama create my-llama -f Modelfile
ollama run my-llama

핵심 파라미터 요약

파라미터기본값설명
num_ctx2048~4096컨텍스트 윈도우 크기 (토큰 수)
temperature0.8출력 다양성 (낮을수록 결정적)
top_p0.9누적 확률 임계값 이하 토큰만 샘플링
top_k40확률 상위 k개 토큰에서만 샘플링
min_p0.05최고 확률 대비 min_p 미만 토큰 제거
num_predict-1최대 생성 토큰 수 (-1은 무제한)

컨텍스트 윈도우: 가장 중요한 설정

기본 num_ctx가 작으면 긴 프롬프트가 조용히 잘려나간다. RAG나 대규모 코드파일을 다룬다면 반드시 늘려야 한다.

  • 일반 대화: 4096으로 충분
  • RAG·문서 요약: 8192~32768
  • 코드 전체 파일 분석: 32768~131072 (모델 지원 범위 내)

단, 컨텍스트가 클수록 VRAM 사용량이 늘어나므로 하드웨어 한계를 감안해야 한다.

서버 환경 변수: 데몬 수준 설정

서버 환경 변수는 Ollama 백그라운드 데몬 자체의 동작을 제어한다. systemd 서비스 파일이나 쉘 프로파일에 설정한다.

# /etc/systemd/system/ollama.service.d/override.conf (Linux)
[Service]
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"

주요 서버 환경 변수

변수설명
OLLAMA_NUM_PARALLEL동시에 처리할 요청 수 (멀티 사용자·API 서버용)
OLLAMA_KEEP_ALIVE모델을 메모리에 유지하는 시간 (재로드 오버헤드 감소)
OLLAMA_KV_CACHE_TYPEKV 캐시 양자화 타입 (q8_0으로 메모리 절감)
OLLAMA_FLASH_ATTENTIONFlash Attention 활성화 (긴 컨텍스트 처리 속도 향상)
OLLAMA_MAX_LOADED_MODELS동시에 메모리에 올릴 수 있는 모델 수

상황별 권장 설정

RAG 파이프라인

PARAMETER num_ctx 16384
PARAMETER temperature 0.1
PARAMETER min_p 0.05

코드 생성·분석

PARAMETER num_ctx 32768
PARAMETER temperature 0.2
PARAMETER top_p 0.95

창의적 글쓰기

PARAMETER num_ctx 4096
PARAMETER temperature 0.8
PARAMETER top_p 0.9
PARAMETER top_k 50

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)