AutoData는 Meta AI의 RAM(Reasoning, Alignment, Memory) 연구 프로젝트에서 공개한 에이전틱 합성 데이터 생성 방법론이다. AI 에이전트가 데이터 과학자처럼 데이터 생성 → 분석 → 개선을 반복하며, 이 과정 자체를 메타 최적화(meta-optimize)해 더 강한 데이터 생성 에이전트를 훈련할 수 있다. 핵심 아이디어는 추론 시간 연산을 고품질 학습 데이터로 전환한다는 것이다.
배경
LLM 학습 데이터는 초기엔 사람이 작성했지만, 점차 모델 자신이 생성하는 합성 데이터로 이동 중이다. 기존 합성 데이터 방법론들은 Self-Instruct, CoT Self-Instruct, Self-Challenging 등으로 발전해 왔으나, 데이터 품질을 직접 제어하지는 못했다. AutoData는 에이전트가 데이터 품질 자체를 측정·피드백·개선하는 루프를 통해 이 한계를 해결한다.
핵심 구조
AutoData는 세 단계 루프로 구성된다.
1. 데이터 생성 (Data Creation)
주 에이전트(LLM)가 수학·법률·코딩 등 도메인별 문서를 기반으로 학습 데이터나 평가 데이터를 생성한다. 이전 분석에서 얻은 학습(learnings)과 스킬을 활용해 점진적으로 품질을 높인다.
2. 데이터 분석 (Data Analysis)
생성된 데이터를 예시 단위(정확성, 품질, 난이도 적절성)와 데이터셋 단위(다양성, 모델 성능 개선 기여도)로 분석한다. 분석 결과를 다음 생성 단계에 피드백한다.
3. 데이터 과학자 루프 (Data Scientist Loop)
품질 기준이 충족될 때까지 생성-분석을 반복한다. 외부 루프에서는 에이전트 자체를 메타 최적화해 더 나은 데이터 과학자를 만든다.
구체 구현: Agentic Self-Instruct
AutoData의 특정 구현 방식으로, 메인 에이전트가 4개의 서브에이전트를 조율한다:
| 역할 | 설명 |
|---|---|
| Challenger LLM | 메인 에이전트의 지시에 따라 학습 예시 생성 |
| Weak Solver | 생성된 문제에 일반적으로 실패하는 약한 모델 |
| Strong Solver | 생성된 문제를 일반적으로 해결하는 강한 모델 |
| Verifier/Judge | 모델 응답의 품질을 채점 |
품질 판단 기준: Weak Solver가 실패(평균 ≤65%)하고 Strong Solver가 성공(갭 ≥20%)하는 문제만 유효 데이터로 채택한다. 기준 미달 시 메인 에이전트가 다른 각도의 문제를 생성하도록 피드백해 루프를 반복한다.
실험 결과
CS 연구 논문 10,000편 이상(S2ORC corpus)을 처리해 2,117개의 품질 기준 충족 QA 쌍을 생성했다. Kimi-K2.5를 오케스트레이터·채점자로, Qwen3.5-397B-A17B를 Strong Solver로, Qwen3.5-4B를 Weak Solver로 사용했다.
메타 최적화(outer loop)를 통해 데이터 과학자 에이전트 자체를 훈련하면 내부 루프 기준만 사용하는 것보다 더 큰 성능 향상을 얻을 수 있음을 보였다.
의의
- 인퍼런스 컴퓨팅을 학습 데이터로 변환: 더 많은 추론 시간을 투자할수록 더 좋은 학습 데이터를 생성
- 범용 프레임워크: 기존 합성 데이터 방법(Self-Instruct, CoT, Self-Challenging 등)이 AutoData의 특수 케이스로 포함됨
- 자기 개선 가능: 데이터 생성 에이전트 자체를 더 나은 버전으로 훈련할 수 있음
누가 쓰면 좋을까
- LLM 학습 데이터의 품질과 다양성을 높이고자 하는 연구자
- 도메인 특화 합성 데이터가 필요한 기업 AI 팀
- 에이전틱 데이터 파이프라인을 설계 중인 ML 엔지니어
라이선스
연구 공개물. 세부 코드 및 라이선스는 RAM 프로젝트 페이지 참조.
참고 자료
- Autodata: an automatic data scientist to create high-quality data — Meta AI RAM (2026)