ML Intern은 Hugging Face가 공개한 오픈소스 ML 엔지니어 에이전트다. 논문, 문서, 데이터셋, Hugging Face Hub, 클라우드 compute에 접근해 “데이터셋으로 모델을 파인튜닝하라”, “논문 구현을 실험하라” 같은 ML 관련 작업을 CLI에서 수행하도록 설계됐다.
설치
git clone [email protected]:huggingface/ml-intern.git
cd ml-intern
uv sync
uv tool install -e .
ml-intern필요한 환경 변수는 선택한 모델과 기능에 따라 달라진다.
ANTHROPIC_API_KEY=<your-anthropic-api-key>
OPENAI_API_KEY=<your-openai-api-key>
HF_TOKEN=<your-hugging-face-token>
GITHUB_TOKEN=<github-personal-access-token>
LOCAL_LLM_BASE_URL=http://localhost:8000실행 방식
대화형:
ml-internheadless 단일 프롬프트:
ml-intern "fine-tune llama on my dataset"모델 지정:
ml-intern --model anthropic/claude-opus-4-7 "your prompt"
ml-intern --model openai/gpt-5.5 "your prompt"
ml-intern --model ollama/llama3.1:8b "your prompt"
ml-intern --model vllm/meta-llama/Llama-3.1-8B-Instruct "your prompt"도구 런타임
기본값은 로컬 파일시스템에서 bash, read, write, edit 도구를 실행한다. HF Space sandbox tools를 쓰려면 --sandbox-tools를 켠다.
ml-intern --sandbox-tools "test this training script in a GPU sandbox"샌드박스 런타임은 private HF Space를 만들 수 있으므로 HF_TOKEN이 필요하다. 로컬 체크아웃을 직접 수정할 때는 기본 로컬 런타임이 적합하고, 원격 GPU 실험이나 격리 실행이 필요할 때는 sandbox runtime이 맞다.
세션 trace 공유
ML Intern은 세션을 Claude Code JSONL 형식으로 개인 Hugging Face dataset에 업로드해 Agent Trace Viewer에서 볼 수 있게 한다. 기본 dataset은 {hf_user}/ml-intern-sessions이며 private로 생성된다. /share-traces public 또는 /share-traces private로 가시성을 바꿀 수 있고, 설정에서 비활성화도 가능하다.
아키텍처 관점
ML Intern은 일반 코딩 에이전트보다 ML 작업에 특화되어 있다.
- Hugging Face Hub와 dataset 접근
- 논문·문서 읽기와 구현
- 로컬 또는 sandbox 도구 런타임 선택
- Slack 등 알림 gateway
- trace dataset을 통한 세션 검토
따라서 일반 웹앱 코딩보다 모델 실험, 데이터 처리, Space 배포, training script 점검 같은 작업에 더 적합하다.
관련 문서
- Hugging Face — 모델·데이터셋·Spaces 중심의 AI 개발 생태계
- smolagents — Hugging Face의 경량 에이전트 프레임워크
- llm-fine-tuning — LLM 파인튜닝 개요
참고 자료
- huggingface/ml-intern — GitHub 공식 저장소