“Qwen3-0.6B 모델을 이 데이터셋으로 파인튜닝해줘”라고 말하면, AI가 알아서 GPU를 고르고, 학습 스크립트를 작성하고, 클라우드에서 학습을 돌리고, 완성된 모델을 허브에 올려줍니다. 공상과학 같지만 실제로 작동하는 이야기입니다.

Hugging Face가 Claude 같은 AI 코딩 에이전트에게 LLM 파인튜닝 전문 지식을 “Skills”라는 형태로 학습시켰습니다. Skills는 지시사항, 스크립트, 도메인 지식을 패키지로 묶어 특수한 작업을 수행하게 만든 것인데요. hf-llm-trainer 스킬은 Claude에게 모델 크기에 맞는 GPU 선택법, Hub 인증 설정, LoRA와 전체 파인튜닝의 선택 기준 등 성공적인 학습에 필요한 수십 가지 결정 사항을 모두 가르칩니다.
출처: We Got Claude to Fine-Tune an Open Source LLM – Hugging Face Blog
자연어 한 줄로 시작하는 파인튜닝
이제 Claude에게 이렇게 말하면 됩니다:
Fine-tune Qwen3-0.6B on the dataset open-r1/codeforces-cots
그러면 Claude가:
- 데이터셋 형식을 검증하고
- 적절한 하드웨어를 선택하고 (0.6B 모델이니 t4-small)
- Trackio 모니터링이 포함된 학습 스크립트를 작성하고
- Hugging Face Jobs에 작업을 제출하고
- 작업 ID와 예상 비용을 알려주고
- 요청하면 진행 상황을 확인해주고
- 문제가 생기면 디버깅을 도와줍니다
모델은 Hugging Face GPU에서 학습되고, 완료되면 자동으로 Hub에 올라갑니다. 당신은 그동안 다른 일을 하면 돼요.
작업을 제출하기 전에 Claude가 먼저 확인을 요청합니다:
Configuration:
- Hardware: t4-small (~$0.75/hour)
- Estimated time: ~20 minutes
- Estimated cost: ~$0.30
- Output: username/qwen-codeforces-cots-sft
Should I submit?
하드웨어를 바꾸거나 학습 파라미터를 조정하고 싶으면 이 단계에서 말하면 됩니다. 승인하면 Claude가 작업을 제출하고, Trackio 대시보드에서 실시간으로 학습 진행 상황을 볼 수 있습니다.
세 가지 학습 방식
Skills는 프로덕션에서 사용되는 세 가지 학습 방법을 지원합니다.
Supervised Fine-Tuning (SFT)는 가장 기본적인 방식입니다. 입력과 원하는 출력 예시를 보여주면, 모델이 그 패턴을 따라하도록 학습합니다. 고객 지원 대화, 코드 생성, 도메인별 Q&A처럼 “좋은 답변이 뭔지” 보여줄 수 있을 때 사용하죠. 3B 파라미터 이상 모델은 자동으로 LoRA를 적용해서 메모리 요구사항을 줄이고, 전체 파인튜닝의 품질을 대부분 유지하면서도 단일 GPU에서 학습을 가능하게 만듭니다.
Direct Preference Optimization (DPO)는 사람들이 선호하는 답변으로 모델을 정렬합니다. “선택된” 답변과 “거부된” 답변 쌍이 필요한데, 보통 SFT 이후 단계로 사용됩니다. DPO는 데이터셋 형식에 민감해서 chosen과 rejected 컬럼이 정확히 있어야 하는데, Claude가 먼저 검증하고 컬럼명이 다르면 매핑하는 법을 알려줍니다.
Group Relative Policy Optimization (GRPO)는 강화학습 기반 작업입니다. 수학 문제 풀기, 코드 작성처럼 정답 여부를 프로그래밍으로 확인할 수 있는 작업에 효과적이라고 검증되었어요. 모델이 답변을 생성하고, 정확도에 따라 보상을 받고, 그 결과로부터 학습합니다. SFT나 DPO보다 복잡하지만 설정 방식은 비슷합니다.
비용과 하드웨어 선택
1B 미만의 작은 모델은 t4-small로 충분합니다. 학습이 빠르고 전체 실행에 1~2달러면 됩니다. 실험이나 교육용으로 완벽하죠.
1~3B 모델은 t4-medium이나 a10g-small로 업그레이드해야 합니다. 몇 시간 걸리고 5~15달러 정도 듭니다.
3~7B 모델은 a10g-large나 a100-large에 LoRA를 써야 합니다. 전체 파인튜닝은 메모리에 안 들어가지만 LoRA면 학습 가능합니다. 프로덕션 기준으로 15~40달러 정도 예상하면 됩니다. 참고로 7B 이상의 대형 모델은 현재 이 Skills 시스템으로는 학습할 수 없습니다.
워크플로우를 테스트할 때는 작게 시작하세요. “100개 예시로 빠르게 테스트 런 돌려줘”라고 하면 Claude가 최소한의 학습만 설정해서 파이프라인이 작동하는지 저렴하게 확인할 수 있습니다. 0.50달러짜리 데모로 형식 오류를 잡으면 30달러짜리 실패한 프로덕션 런을 막을 수 있죠.
데이터셋 검증과 모니터링
데이터셋 형식 오류가 학습 실패의 가장 흔한 원인입니다. Claude에게 “내 데이터셋이 SFT 학습에 쓸 수 있는지 확인해줘”라고 하면, CPU에서 빠르게 검사하고 어떤 학습 방식에 호환되는지 알려줍니다. 변환이 필요하면 매핑 코드도 보여주고 학습 스크립트에 바로 적용할 수 있어요.
학습이 시작되면 Trackio 대시보드에서 실시간으로 손실값, 학습률, 검증 지표를 볼 수 있습니다. 건강한 학습은 손실값이 꾸준히 감소하는 패턴을 보입니다. 언제든 Claude에게 “내 학습 작업 상태가 어때?”라고 물으면 로그를 가져와서 요약해줍니다. 메모리 부족이면 배치 크기를 줄이거나 하드웨어 업그레이드를 제안하고, 타임아웃이면 학습 시간을 늘리거나 더 빠른 설정을 추천합니다.
학습이 끝나면 모델을 GGUF 포맷으로 변환해서 로컬에서 실행할 수도 있습니다. “Q4_K_M 양자화로 GGUF 변환해서 Hub에 올려줘”라고 하면 Claude가 LoRA 어댑터를 병합하고, GGUF로 변환하고, 양자화를 적용해서 푸시합니다. 그러면 llama.cpp, LM Studio, Ollama 같은 도구로 로컬에서 쓸 수 있어요.
전문 지식의 민주화
이 시스템이 의미하는 건 명확합니다. 전문가만 할 수 있던 작업이 대화로 가능해졌다는 거죠. 데이터 검증, 하드웨어 선택, 스크립트 작성, 작업 제출, 진행 모니터링, 결과물 변환까지 전체 라이프사이클을 자연어로 처리합니다.
Claude Code, OpenAI Codex, Google Gemini CLI가 현재 지원되고, Cursor, Windsurf, Continue도 곧 통합된다고 합니다. 이 스킬은 오픈소스로 공개되어 있어서 자신의 워크플로우에 맞게 확장하거나 커스터마이징할 수 있습니다.
0.5B부터 최대 7B 파라미터 모델까지, SFT부터 GRPO까지, 30센트 실험부터 프로덕션 배포까지. AI가 AI를 학습시키는 시대가 이미 시작됐습니다.
참고자료:
- Hugging Face Skills GitHub Repository
- TRL Documentation – 기반 학습 라이브러리
- Hugging Face Jobs – 클라우드 학습 인프라

답글 남기기