모델 성능은 데이터 품질에 달려 있다. 그런데 AI 엔지니어와 도메인 전문가가 협력해 레이블링·검토·큐레이션 작업을 체계적으로 진행하는 도구는 많지 않다. Argilla는 그 공백을 채우는 오픈소스 협업 플랫폼이다.
Argilla는 AI 엔지니어와 도메인 전문가가 고품질 학습 데이터셋을 함께 구축하는 도구다. 텍스트 분류, 명명 개체 인식(NER), 요약, RLHF용 피드백 수집 등 다양한 태스크의 어노테이션 워크플로를 지원한다. Hugging Face와 긴밀하게 통합되어 있어 데이터셋을 Hub에 바로 게시하거나 distilabel과 연결해 AI 피드백을 자동화할 수 있다.
왜 Argilla인가
| 목표 | Argilla의 접근 |
|---|---|
| AI 출력 품질 향상 | 사람의 판단으로 데이터 품질을 높여 모델 성능 개선 |
| 데이터·모델 통제권 | 자체 호스팅으로 데이터 주권 유지 |
| 빠른 반복 | 올바른 데이터와 모델을 빠르게 찾아 실험 주기 단축 |
커뮤니티 활용 사례
Argilla로 구축된 오픈소스 데이터셋과 모델들이 실제 성과를 보여준다:
- Cleaned UltraFeedback — Argilla UI 필터로 원본 데이터 생성 코드 버그를 발견해 정제. 이를 바탕으로 파인튜닝한 Notus 모델이 여러 벤치마크에서 Zephyr를 능가
- distilabel Intel Orca DPO — Argilla 사람 큐레이션 + distilabel AI 피드백을 결합해 개선된 OpenHermes 모델 학습. 원본 데이터셋 대비 성능 향상
빠른 시작
pip install argillaimport argilla as rg
client = rg.Argilla(api_url="<ARGILLA_API_URL>", api_key="<ARGILLA_API_KEY>")
settings = rg.Settings(
guidelines="리뷰를 긍정 또는 부정으로 분류하세요.",
fields=[rg.TextField(name="review", title="리뷰 텍스트")],
questions=[
rg.LabelQuestion(
name="my_label",
title="이 리뷰의 감성은?",
labels=["positive", "negative"],
)
],
)
dataset = rg.Dataset(name="my_first_dataset", settings=settings, client=client)
dataset.create()이후 Hugging Face datasets로 데이터를 불러와 레코드를 추가하면 Argilla UI에서 바로 레이블링을 시작할 수 있다.
배포
Hugging Face Spaces에서 원클릭으로 Argilla를 배포하거나 자체 서버에 호스팅할 수 있다:
# Docker로 로컬 실행
docker run -d --name argilla -p 6900:6900 argilla/argilla-quickstart:latest누가 쓰면 좋은가
- LLM 파인튜닝을 위한 맞춤 데이터셋을 구축해야 하는 AI 팀
- 도메인 전문가와 협력해 전문 분야 데이터를 레이블링해야 하는 프로젝트
- Hugging Face Hub 기반으로 오픈소스 데이터셋을 공개하려는 연구자
- RLHF·DPO 학습을 위한 인간 피드백 데이터를 수집하려는 팀
라이선스
Apache 2.0
참고 자료
- argilla-io/argilla — GitHub 공식 저장소