Black-Box LLM Distillation은 GPT-4 같은 독점 대형 언어 모델을 교사(teacher)로 쓰되, 로짓·은닉 상태 없이 출력만 볼 수 있는 조건에서 작은 모델을 학습시키는 문제다. 논문은 이 한계를 보완하기 위해 중간 프록시 모델(proxy model)을 두는 Proxy-KD를 제안한다.
왜 블랙박스 증류가 어려운가
일반적인 지식 증류(knowledge distillation)는 교사 모델의 soft label, logit 분포, 중간 표현을 활용한다. 그러나 상용 LLM API는 대개 최종 텍스트만 반환한다. 학생 모델은 “정답 문장”은 볼 수 있지만, 교사가 어떤 후보를 어느 정도 확률로 고려했는지는 알 수 없다.
이 때문에 블랙박스 증류는 단순 SFT에 가까워지기 쉽다. 좋은 답변을 따라 쓰는 것은 가능하지만, 교사의 결정 경계나 일반화 습관을 충분히 옮기기 어렵다.
Proxy-KD의 핵심
Proxy-KD는 교사와 학생 사이에 프록시 모델을 둔다. 프록시는 블랙박스 교사의 출력으로 학습되며, 이후 학생에게 더 풍부한 학습 신호를 제공한다. 즉, 접근 불가능한 교사 내부 상태를 직접 얻는 대신, 교사 행동을 모사하는 접근 가능한 모델을 만들어 지식 전달 경로를 보강한다.
| 방식 | 사용할 수 있는 신호 | 한계 |
|---|---|---|
| 일반 블랙박스 SFT | 교사 출력 텍스트 | 확률 분포와 중간 표현 부재 |
| 화이트박스 KD | 로짓, hidden state, 출력 | 교사 모델 접근 권한 필요 |
| Proxy-KD | 교사 출력 + 프록시의 내부 신호 | 프록시 품질에 따라 효과 좌우 |
어디에 쓸 만한가
- 폐쇄형 API를 기준으로 사내 소형 모델을 맞추고 싶을 때
- 특정 도메인 답변 스타일을 경량 모델에 옮기고 싶을 때
- 비용·지연 시간 때문에 프로덕션 전체를 프론티어 모델로 운영하기 어려울 때
다만 교사 모델 약관, 데이터 권리, 증류 금지 조항을 먼저 확인해야 한다. 기술적으로 가능하더라도 상용 API의 출력물을 모델 학습에 쓰는 것이 허용되지 않을 수 있다.
관련 문서
- llm-fine-tuning — SFT·PEFT·RAG를 비교하는 LLM 파인튜닝 가이드
- llm-fine-tuning-tips-beyond-lora — LoRA 외 PEFT 기법 선택 기준
- local-slm — 로컬 소형 언어 모델 개요
참고 자료
- Knowledge Distillation of Black-Box Large Language Models — arXiv (2024-01-13)