보험사는 하루에도 수천 건의 차량 손상 사진을 검토합니다. 처리 속도도 중요하고, 비용도 무시할 수 없죠. 그렇다면 최신 클로즈드 모델 대신, 직접 학습시킨 소형 오픈소스 모델이 더 나은 선택일 수 있을까요? Oxen.ai가 단돈 $1짜리 파인튜닝 실험으로 그 답을 직접 보여줬습니다.

Oxen.ai의 엔지니어 Eloy Martinez가 Alibaba의 비전-언어 모델 Qwen3-VL-8B를 자동차 손상 분류 태스크에 파인튜닝한 실험 결과를 공개했습니다. 차량 사진 한 장을 입력하면 스크래치·덴트·크랙 중 하나로 분류하는 작업인데, 파인튜닝 비용은 $1, 학습 데이터는 319장에 불과했습니다.
출처: How a $1 Qwen3-VL Fine-Tune Beat Gemini 3 – Oxen.ai
결과: 정확도, 속도, 비용 모두 역전
최종 성능 비교부터 보는 게 빠릅니다.
| 모델 | 정확도 | 추론 시간 (98개) | 요청당 비용 |
|---|---|---|---|
| 베이스 Qwen3-VL-8B | 54.1% | 10초 | $0.003 |
| Gemini 3 Flash | 82.7% | 166초 | $0.016 |
| 파인튜닝 Qwen3-VL | 88.8% | 10초 | $0.003 |
파인튜닝된 모델은 Gemini 3 Flash보다 정확도가 6.1%p 높고, 추론 속도는 16배 빠르며, API 비용은 5배 이상 저렴합니다. 같은 하드웨어(A10G GPU 1대)에서 돌아가는 8B 파라미터짜리 모델이 API 호출 방식의 대형 클로즈드 모델을 전면에서 앞선 셈입니다.
왜 이런 결과가 나왔을까
베이스 모델의 클래스별 정확도를 보면 이해가 쉬워집니다. 베이스 Qwen3-VL-8B의 크랙(crack) 정확도는 19.4%였습니다. 사실상 랜덤 수준이죠. 크랙과 스크래치는 인간도 헷갈릴 만큼 시각적으로 비슷하고, 일반 학습 데이터에 자동차 손상 분류 기준이 충분히 담겨 있지 않기 때문입니다.
파인튜닝 이후 크랙 정확도는 96.8%까지 뛰었습니다. +77.4%p의 변화입니다. 모델이 “크랙이 무엇인지”를 이 도메인의 기준으로 새롭게 학습한 결과입니다.
이 실험이 흥미로운 이유는 데이터 효율성 때문이기도 합니다. 78장으로 학습했을 때는 정확도 67.3%, 319장으로 늘렸을 때 88.8%로 올랐습니다. 비용은 각각 $0.5, $1.0이었고, 학습 시간은 8분이었습니다. 학습 곡선이 아직 수렴하지 않은 만큼, 더 많은 데이터를 투입하면 추가 성능 개선 여지도 있습니다.
파인튜닝이 항상 답은 아니다
실험 팀도 한계는 솔직하게 인정합니다. 테스트셋이 98장이고, Gemini와의 차이는 실제로 6장입니다. 단일 도메인(자동차 손상) 실험이기 때문에 일반화에는 신중할 필요가 있습니다.
실험 과정에서도 예상치 못한 문제들이 있었습니다. 훈련 로스는 잘 떨어졌는데 배포 후 성능이 베이스 모델과 동일한 상황이 발생했고, 원인은 추론 프레임워크(SGLang)의 LoRA 필터가 비전 레이어를 조용히 무시하는 버그였습니다. 이런 실전 경험은 파인튜닝을 처음 시도하는 팀에게 유용한 참고 사례가 될 수 있습니다.
규모가 커지면 숫자가 달라진다
요청당 $0.013의 비용 차이는 작아 보입니다. 그런데 보험사처럼 월 100만 건을 처리한다면 이야기가 달라집니다. 동일 규모에서 Gemini 3 Flash는 월 $16,000, 파인튜닝된 Qwen3-VL은 $3,000입니다. 정확도까지 더 높다면, 클로즈드 모델을 계속 쓸 이유가 없어지는 시점이 분명히 존재합니다.
논문은 이 외에도 데이터 누수(train/test leakage) 탐지 방법, LoRA 하이퍼파라미터 설정, 학습 곡선 외삽(extrapolation)을 통한 데이터 추가 효과 추정 등 실전 노하우를 상세히 다루고 있습니다. 특정 도메인에 비전 모델 도입을 고민하고 있다면 원문을 직접 읽어볼 만합니다.
참고자료: When to Fine-Tune an Image Model – Oxen.ai

답글 남기기