전체 학습 스택을 처음부터 구축할 필요가 없다. 저VRAM 학습, LoRA/QLoRA, RLHF, DPO, 멀티GPU 스케일링, 또는 간단한 UI 중 무엇이 필요하든 맞는 라이브러리가 있다. 목적별로 최선의 선택지를 정리했다.
1. Unsloth — 속도와 메모리 효율의 왕
Unsloth는 빠르고 메모리 효율적인 LLM 파인튜닝에 특화됐다. 로컬, Colab, Kaggle, 소비자용 GPU에서 작동하며, 수백 개 모델을 더 빠르게 학습·실행하면서 VRAM을 덜 사용한다고 밝힌다.
- 최적 케이스: 빠른 로컬 파인튜닝, 저VRAM 환경, Hugging Face 모델, 빠른 실험
- 난이도: 입문
- github.com/unslothai/unsloth
2. LLaMA-Factory — UI 기반 파인튜닝
CLI와 Web UI 모두 지원하는 파인튜닝 프레임워크. 입문자 친화적이지만 다양한 모델 패밀리를 아우르는 진지한 실험에도 충분히 강력하다.
- 최적 케이스: UI 기반 파인튜닝, 빠른 실험, 다중 모델 지원
- 난이도: 입문
- github.com/hiyouga/LLaMA-Factory
3. PEFT — 파라미터 효율적 파인튜닝의 표준
PEFT(Parameter-Efficient Fine-Tuning)는 전체 모델이 아닌 소수의 파라미터만 학습해 대형 모델을 적응시킨다. LoRA, 어댑터, 프롬프트 튜닝, 프리픽스 튜닝을 지원하는 업계 표준 라이브러리다.
- 최적 케이스: LoRA, 어댑터, 프리픽스 튜닝, 저비용 학습
- 난이도: 중급
- github.com/huggingface/peft
4. TRL — 정렬(Alignment) 전용
Hugging Face의 후학습(post-training)·정렬 라이브러리. SFT, DPO, GRPO, 보상 모델링, RLHF 등 선호 최적화 방법을 완전히 지원한다.
- 최적 케이스: RLHF 스타일 워크플로, DPO/PPO/GRPO, 정렬
- 난이도: 중급
- github.com/huggingface/trl
5. Axolotl — 고급 커스텀 파이프라인
복잡한 학습 프로세스에 더 많은 제어권을 원하는 사용자를 위한 유연한 파인튜닝 프레임워크. LoRA/QLoRA, 커스텀 데이터셋, YAML 기반 재현 가능한 학습 설정으로 인기가 높다.
- 최적 케이스: 커스텀 학습 파이프라인, LoRA/QLoRA, 멀티GPU, 재현 가능한 설정
- 난이도: 고급
- github.com/axolotl-ai-cloud/axolotl
6. DeepSpeed — 대규모 분산 학습
Microsoft의 대규모 학습 및 추론 최적화 라이브러리. 분산 GPU 환경에서 대형 모델 학습 시 메모리 압박을 줄이고 속도를 높인다.
- 최적 케이스: 대형 모델, 멀티GPU 학습, 분산 파인튜닝, 메모리 최적화
- 난이도: 고급
- github.com/microsoft/DeepSpeed
7. torchtune — PyTorch 네이티브
PyTorch 네이티브 후학습 라이브러리. 모듈식 빌딩 블록과 소비자급~전문가급 GPU에 걸쳐 동작하는 학습 레시피를 제공한다.
- 최적 케이스: PyTorch 사용자, 깔끔한 학습 레시피, 커스터마이징, 연구 친화적 파인튜닝
- 난이도: 중급
- github.com/meta-pytorch/torchtune
8. LitGPT — 읽기 쉬운 구현
LLM을 처음부터 사전 학습, 파인튜닝, 평가, 배포하는 레시피 제공. 단순하고 해킹 가능한 구현에 집중하며, LoRA/QLoRA/어댑터/양자화/대규모 학습을 모두 지원한다.
- 최적 케이스: 가독성 높은 코드를 원하는 개발자, 처음부터 구현, 실용적 학습 레시피
- 난이도: 중급
- github.com/Lightning-AI/litgpt
9. SWIFT — 멀티모달 모델 특화
ModelScope 커뮤니티의 대형 모델 및 멀티모달 모델 파인튜닝·배포 프레임워크. 사전 학습, 파인튜닝, 인간 정렬, 추론, 평가, 양자화, 배포를 텍스트 및 멀티모달 모델 전반에 걸쳐 지원한다.
- 최적 케이스: 대형 모델 파인튜닝, 멀티모달 모델, Qwen 스타일 워크플로, 평가·배포
- 난이도: 중급
- github.com/modelscope/ms-swift
10. AutoTrain Advanced — 노코드·로우코드
Hugging Face의 커스텀 데이터셋 모델 학습 오픈소스 도구. 로컬 또는 클라우드에서 실행 가능하며 Hugging Face Hub의 모델을 지원한다.
- 최적 케이스: 노코드/로우코드 파인튜닝, Hugging Face 워크플로, 커스텀 데이터셋, 빠른 모델 학습
- 난이도: 입문
- github.com/huggingface/autotrain-advanced
선택 가이드
| 라이브러리 | 카테고리 | 핵심 강점 | 난이도 |
|---|---|---|---|
| Unsloth | 속도 | 2배 빠른 학습, VRAM 70% 절감 | 입문 |
| LLaMA-Factory | UI 친화 | CLI·Web UI, 다양한 모델 패밀리 | 입문 |
| PEFT | 기반 기술 | LoRA·어댑터 업계 표준 | 중급 |
| TRL | 정렬 | SFT·DPO·GRPO 완전 지원 | 중급 |
| Axolotl | 고급 개발 | 복잡한 멀티GPU 파이프라인 | 고급 |
| DeepSpeed | 확장성 | 분산 학습·ZeRO 메모리 최적화 | 고급 |
| torchtune | PyTorch 네이티브 | PyTorch 설계 원칙의 모듈식 레시피 | 중급 |
| SWIFT | 멀티모달 | Qwen 모델·비전-언어 튜닝 최적화 | 중급 |
| AutoTrain | 노코드 | 학습 스크립트 없는 관리형 솔루션 | 입문 |
LitGPT는 PyTorch 구현 가독성을 중시하는 개발자·연구자에게 중급 수준으로 권장
관련 문서
- llm-fine-tuning — LLM 파인튜닝 개요 (SFT·PEFT·LoRA·QLoRA·RAG 비교)
참고 자료
- Top 10 Open-Source Libraries to Fine-Tune LLMs Locally — Analytics Vidhya (2026-05-05)