DeepSeek-R1-0528 모델을 내 컴퓨터에서 실행하기: 715GB 거대 AI 모델의 로컬 구동 완벽 가이드

2025-06-14

﹒

4 minutes

DeepSeek R1 Local Setup
이미지 출처: KDnuggets

최근 AI 분야에서 가장 주목받고 있는 DeepSeek-R1-0528 모델을 직접 내 컴퓨터에서 실행해보고 싶으신가요? 이 거대한 추론 모델을 로컬 환경에서 구동하는 것이 가능할까 싶지만, 최신 양자화 기술 덕분에 개인 사용자도 충분히 활용할 수 있습니다.

이 가이드에서는 715GB 크기의 DeepSeek-R1-0528 모델을 80% 축소하여 로컬에서 실행하는 전체 과정을 단계별로 설명드리겠습니다.

DeepSeek-R1-0528, 왜 주목받는가?

DeepSeek-R1-0528은 2025년 5월에 출시된 최신 추론 모델로, 수학, 프로그래밍, 논리적 사고 등 다양한 벤치마크에서 뛰어난 성능을 보여주고 있습니다. 이 모델의 가장 큰 특징은 Chain of Thought(CoT) 추론 능력으로, 복잡한 문제를 단계별로 분석하고 해결하는 과정을 명확히 보여줍니다.

특히 이 모델은 자기 검증(self-verification)과 반성적 사고(reflection) 능력을 갖추고 있어, 단순한 답변 생성을 넘어 문제 해결 과정 자체를 개선해나가는 특별함을 보입니다. 하지만 원본 모델의 크기가 715GB에 달해 일반 사용자가 접근하기 어려웠던 것이 사실입니다.

양자화 기술의 혁신: 715GB에서 162GB로

이미지 출처: Medium

Unsloth에서 개발한 1.78비트 양자화 기술(IQ1_S)은 이러한 문제를 해결하는 핵심 기술입니다. 이 기술을 통해 모델 크기를 80% 줄이면서도 성능 저하는 최소화했습니다.

양자화 기술의 핵심은 모델의 각 레이어별로 최적화된 압축 방식을 적용하는 것입니다. 모든 레이어를 동일하게 압축하면 모델이 제대로 작동하지 않거나 무의미한 결과를 생성하게 되는데, Unsloth의 동적 양자화는 중요한 레이어는 보존하고 덜 중요한 부분만 선택적으로 압축하는 방식을 사용합니다.

로컬 실행의 장점과 도전

장점

클라우드 서비스 대신 로컬에서 AI 모델을 실행하는 것은 여러 장점이 있습니다. 가장 큰 이점은 데이터 프라이버시입니다. 민감한 정보나 개인 데이터를 외부 서버로 전송할 필요가 없어 보안성이 크게 향상됩니다.

또한 비용 효율성 측면에서도 유리합니다. 초기 하드웨어 투자 비용은 들지만, 장기적으로는 지속적인 API 사용료나 클라우드 서비스 비용을 절약할 수 있습니다. 특히 대량의 추론 작업을 수행하는 경우 그 차이는 더욱 명확해집니다.

도전 과제

하지만 로컬 실행에는 분명한 제약사항도 있습니다. 가장 큰 걸림돌은 하드웨어 요구사항입니다. GPU를 활용한 최적 성능을 위해서는 최소 24GB VRAM과 128GB RAM이 필요하며, CPU만으로 실행할 경우 64GB RAM이 필요합니다.

시스템 요구사항 확인

본격적인 설치에 앞서 시스템 요구사항을 확인해보겠습니다.

GPU 활용 환경

GPU: NVIDIA RTX 4090 또는 A6000 (24GB VRAM 이상)
RAM: 128GB 이상
예상 성능: 초당 약 5토큰 생성
저장공간: 200GB 이상 여유 공간

CPU 전용 환경

RAM: 64GB 이상 (권장 128GB)
예상 성능: 초당 약 1토큰 생성
저장공간: 200GB 이상 여유 공간

최적 환경

통합 메모리: 180GB 이상 (RAM + VRAM 합계)
예상 성능: 초당 5토큰 이상

단계별 설치 가이드

1단계: 시스템 업데이트 및 Ollama 설치

먼저 Ubuntu 시스템을 업데이트하고 Ollama를 설치합니다. Ollama는 대형 언어 모델을 로컬에서 실행하기 위한 경량 서버입니다.

# 시스템 업데이트
sudo apt update && sudo apt upgrade -y

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

2단계: DeepSeek-R1-0528 모델 다운로드

이제 양자화된 모델을 다운로드합니다. 이 과정에서 약 162GB의 데이터를 다운로드하므로 안정적인 인터넷 연결이 필요합니다.

# 양자화된 모델 다운로드 및 실행
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:IQ1_S

Model Download Process
이미지 출처: KDnuggets

3단계: Open Web UI 설정

더 편리한 인터페이스를 위해 Open Web UI를 Docker를 통해 설정합니다.

# Docker가 설치되어 있지 않다면
sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker

# Open Web UI 컨테이너 실행
sudo docker run -d \
  --name open-webui \
  -p 8080:8080 \
  --gpus all \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:cuda

이 명령어는 다음과 같은 역할을 합니다:

포트 8080에서 웹 인터페이스 실행
--gpus all 플래그로 GPU 가속 활성화
데이터 디렉토리 마운트로 설정 보존

4단계: 웹 인터페이스 접속 및 모델 선택

브라우저에서 http://localhost:8080에 접속하여 Open Web UI에 접근합니다. 모델 메뉴에서 hf.co/unsloth/DeepSeek-R1-0528-GGUF:IQ1_S를 선택하면 준비가 완료됩니다.

Open Web UI Interface
이미지 출처: KDnuggets

GPU 사용 시 문제 해결

GPU 메모리 부족이나 GGUF 관련 오류가 발생하는 경우, CPU 전용 모드로 전환할 수 있습니다.

# 기존 Ollama 프로세스 종료
pkill ollama 

# GPU 메모리 정리
sudo fuser -v /dev/nvidia* 

# CPU 전용으로 Ollama 재시작
CUDA_VISIBLE_DEVICES="" ollama serve

CPU 모드에서는 성능이 크게 저하되지만(초당 1토큰), 하드웨어 제약이 있는 환경에서도 모델을 사용할 수 있습니다.

실제 사용 경험과 성능 분석

GPU 환경에서의 성능

24GB VRAM을 갖춘 RTX 4090 환경에서는 초당 약 5토큰의 속도로 텍스트를 생성합니다. 복잡한 수학 문제나 코딩 과제의 경우 답변 생성에 1-2분 정도 소요되지만, 그 과정에서 단계별 추론 과정을 명확히 보여주어 교육적 가치가 높습니다.

CPU 환경에서의 한계

CPU만을 사용하는 경우 초당 1토큰의 속도로 매우 느린 편입니다. 간단한 질문에도 5-10분이 소요되어 실용성이 떨어집니다. 하지만 시간 제약이 없는 연구나 학습 목적으로는 충분히 활용 가능합니다.

다운로드 과정의 주의사항

162GB 크기의 모델 다운로드는 안정적인 인터넷 연결이 필수입니다. 다운로드가 중단되면 처음부터 다시 시작해야 하므로, 가능하면 유선 연결을 사용하고 다운로드 중에는 네트워크를 사용하는 다른 작업을 피하는 것이 좋습니다.

활용 분야와 실무 적용

DeepSeek-R1-0528은 다음과 같은 분야에서 특히 유용합니다:

교육 및 학습: 복잡한 수학 문제나 프로그래밍 과제를 단계별로 해결하는 과정을 보여주어 학습자의 이해를 돕습니다. 특히 사고 과정을 명시적으로 드러내는 CoT 능력은 교육 도구로서 큰 가치를 가집니다.

연구 개발: 논리적 추론이 필요한 연구 과제나 복잡한 분석 작업에 활용할 수 있습니다. 데이터가 외부로 전송되지 않아 민감한 연구 정보의 보안도 보장됩니다.

코드 개발: 복잡한 알고리즘 설계나 버그 해결 과정에서 단계별 접근 방법을 제시해 개발자의 문제 해결을 지원합니다.

향후 전망과 개선 방향

현재 DeepSeek-R1-0528의 로컬 실행은 여전히 높은 하드웨어 요구사항이라는 진입 장벽이 있습니다. 하지만 양자화 기술의 지속적인 발전과 하드웨어 성능 향상으로 이러한 제약은 점차 완화될 것으로 예상됩니다.

특히 Apple의 M 시리즈 칩처럼 통합 메모리 구조를 갖춘 하드웨어나, AMD의 새로운 APU들이 이러한 대형 모델 실행에 더 적합한 환경을 제공할 것으로 보입니다.

또한 llama.cpp 같은 최적화된 추론 엔진들이 계속 발전하면서, 더 효율적인 모델 실행 방법들이 등장할 것으로 기대됩니다. 현재는 Ollama를 통한 실행이 가장 접근하기 쉬운 방법이지만, 향후 더 다양한 선택지가 생길 것입니다.

마무리

DeepSeek-R1-0528을 로컬에서 실행하는 것은 분명 도전적인 과제입니다. 높은 하드웨어 요구사항과 복잡한 설정 과정, 그리고 예상보다 긴 응답 시간 등 여러 제약사항이 있습니다.

하지만 최신 AI 모델을 직접 체험하고, 데이터 프라이버시를 보장하며, 장기적인 비용을 절약할 수 있다는 장점은 이러한 불편함을 충분히 상쇄합니다. 특히 AI 기술을 깊이 있게 학습하고자 하는 개발자나 연구자에게는 매우 가치 있는 경험이 될 것입니다.

기술의 발전 속도를 고려할 때, 지금은 어려워 보이는 대형 모델의 로컬 실행이 머지않아 일반적인 일이 될 수도 있습니다. 이런 관점에서 지금 미리 경험해보는 것은 미래를 준비하는 의미 있는 투자라고 할 수 있겠습니다.

참고자료

Like?

AI 모델 DeepSeek R1 GPU AI LLM Ollama 개인용 AI 로컬 AI 머신러닝 양자화 오픈소스 AI 인공지능 설치

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup