데이터 고갈 시대의 해법: Diffusion 모델이 보여준 ‘크로스오버’ 현상

2025-11-14

﹒

3 minutes

AI 학습에서 가장 큰 병목이 무엇일까요? 이제는 컴퓨팅 파워가 아닙니다. 고품질 데이터가 바닥나고 있거든요. GPT 이후 10년간 지배적이었던 자기회귀(AR) 방식은 새 데이터를 빠르게 소화하는 데는 탁월하지만, 같은 데이터를 반복 학습하면 금방 포화 상태에 빠집니다. 그런데 최근 발표된 연구가 흥미로운 대안을 제시했습니다.

사진 출처: Diffusion Language Models are Super Data Learners (arXiv)

싱가포르 국립대와 Sea AI Lab 연구팀이 arXiv에 발표한 논문 “Diffusion Language Models are Super Data Learners”는 제한된 데이터로 학습할 때 Diffusion 언어 모델(DLM)이 기존 AR 모델보다 3배 이상 효율적이라는 사실을 발견했습니다. 핵심은 ‘크로스오버’ 현상입니다. 같은 데이터를 반복 학습시키면 특정 시점부터 DLM이 AR 모델을 역전하고, 그 격차가 계속 벌어진다는 거죠.

출처: Diffusion Language Models are Super Data Learners – arXiv

데이터를 200번 반복해도 계속 배운다

연구팀은 엄격하게 통제된 환경에서 실험했습니다. 1B 파라미터 모델에 전체 학습 토큰 수를 96B로 고정하고, 고유 토큰 수만 0.5B부터 96B까지 달리했습니다. 예를 들어 0.5B 고유 토큰이면 같은 데이터를 192번 반복하는 셈이고, 1.5B 고유 토큰이면 64번 반복하는 거죠.

결과는 명확했습니다. AR 모델은 몇 번의 에폭만 돌려도 성능이 정체되거나 오히려 떨어졌어요. 검증 손실(validation loss)이 올라가면서 ‘과적합’ 신호를 보냈습니다. 반면 DLM은 같은 데이터를 수십 번, 수백 번 반복해도 계속 성능이 향상됐습니다. 극단적인 케이스로, 1B 토큰을 480번 반복 학습시킨 DLM은 HellaSwag에서 56%, MMLU에서 33% 정확도를 기록했는데, 이는 AR 모델의 41%와 29%를 크게 앞선 수치입니다.

크로스오버 시점은 여러 요인에 따라 달라집니다. 고유 데이터가 많을수록 크로스오버가 늦게 나타나고, 모델이 클수록 일찍 나타나요. 데이터 품질이 높으면 역시 늦게 나타납니다. 하지만 모든 경우에서 크로스오버는 일관되게 관찰됐습니다.

왜 Diffusion 모델이 더 효율적인가

연구팀은 DLM의 우위를 세 가지 요인으로 설명합니다.

첫째, 방향 구애 없는 모델링(any-order modeling)입니다. AR 모델은 왼쪽에서 오른쪽으로만 텍스트를 예측합니다. 이는 자연어에는 맞지만, 코드나 데이터베이스 같은 비순차적 데이터에는 제약이 되죠. DLM은 양방향 주의(attention)를 사용해 어느 방향으로든 학습할 수 있습니다. 이렇게 되면 길이가 L인 시퀀스 하나가 2^L개의 학습 변형으로 확장됩니다. AR은 L개 변형만 만들어내는 것과 대조적이죠.

둘째, 초고밀도 연산(super-density)입니다. DLM은 학습과 추론 시 훨씬 많은 연산을 수행합니다. 양방향 주의를 반복적으로 적용하면서 제한된 데이터를 더 철저히 파고들죠. 실험에 따르면 DLM은 최고 성능에 도달하기 위해 AR보다 100배 이상 많은 학습 연산이 필요합니다. 대신 그만큼 데이터에서 더 많은 신호를 추출해냅니다.

셋째, 내장된 몬테카를로 증강입니다. DLM의 목적 함수는 데이터에 노이즈를 주입하는 과정을 명시적으로 포함합니다. 각 문장이 여러 마스킹 패턴으로 변형되면서 사실상 데이터 증강이 자동으로 일어나는 거예요. 연구팀은 AR 모델에도 입력 노이즈나 드롭아웃으로 비슷한 효과를 시도했지만, 격차를 메우지는 못했습니다.

실전 증명: 10B 토큰으로 경쟁력 있는 코더 만들기

이론적 우위를 넘어 실용성도 검증했습니다. 연구팀은 1.7B 파라미터 모델을 Python 코드 10B 토큰으로 약 150 에폭 학습시켰어요. 총 1.5조 토큰의 연산 예산을 사용했죠. 같은 조건에서 AR 모델과 비교했을 때, DLM 코더는 MBPP와 MBPP+ 벤치마크에서 훈련 초기부터 명확한 크로스오버를 보였습니다.

흥미로운 점은 HumanEval 벤치마크에서 크로스오버 시점이 달랐다는 겁니다. MBPP는 3-shot 평가인 반면 HumanEval은 0-shot이거든요. 평가 프로토콜이 크로스오버 타이밍에 영향을 줄 수 있다는 뜻이죠. 그럼에도 DLM은 1.5조 토큰 학습 후에도 수렴 조짐을 보이지 않았고, 추가 학습 여지가 충분했습니다.

이는 특정 프로그래밍 언어처럼 고품질 데이터가 10B 토큰 수준으로 제한된 현실적 상황에서, DLM이 조 단위 토큰으로 학습한 최신 AR 코드 모델과 대등한 성능을 낼 수 있다는 의미입니다.

검증 손실이 올라도 성능은 계속 오른다

연구에서 밝혀진 또 하나의 중요한 사실은 검증 손실 증가가 실제 성능 저하를 의미하지 않는다는 점입니다. AR 모델이 ‘과적합’ 신호를 보이는 동안에도 다운스트림 벤치마크 성능은 계속 향상됐어요.

이유는 간단합니다. 검증 손실은 절대적인 교차 엔트로피인 반면, 다중 선택 벤치마크는 선택지 간 상대적 확률을 비교하거든요. 연구팀이 시각화한 결과를 보면, 정답과 오답 옵션의 로그 가능도(NLL) 차이가 과적합 후에도 계속 벌어졌습니다. 모델이 일부 세그먼트에 과도하게 확신하면서 절대 손실은 증가하지만, 정답을 구별하는 능력은 여전히 개선되는 거죠.

의미와 한계

이 연구는 데이터 제약 시대의 AI 학습 전략을 재고하게 만듭니다. 고품질 데이터가 희소한 도메인—의료 기록, 로보틱스 로그, 저자원 언어—에서 DLM은 매력적인 선택지입니다. 같은 데이터에서 훨씬 더 많은 신호를 추출하니까요.

다만 트레이드오프도 명확합니다. DLM은 학습과 추론에 100배 이상의 연산이 필요합니다. 에너지 비용과 처리 시간이 증가하죠. 다행히 이 연산은 대부분 병렬화가 가능하고, 멀티토큰 생성으로 실제 지연시간을 줄일 수 있습니다. GPU 아키텍처가 연산 집약적 작업에 최적화되면서 격차는 더 줄어들 겁니다.

또한 DLM의 평가 지표는 AR과 직접 비교하기 어렵습니다. 좌에서 우로의 정규화된 가능도가 아니라 변분 하한을 최적화하거든요. 스트리밍 생성이나 도구 사용 같은 영역에서의 성능은 추가 연구가 필요합니다.

데이터가 아니라 연산이 병목인 상황이라면? 그땐 여전히 AR이 유리합니다. 하지만 고품질 토큰이 가장 희소한 자원이 된 지금, DLM은 데이터당 능력의 한계를 밀어붙이는 강력한 패러다임입니다. 컴퓨팅 비용을 감수할 가치가 있다면 말이죠.

참고자료:

공식 GitHub 저장소 – 코드베이스 및 구현
MegaDLMs 프레임워크 – GPU 최적화 학습 프레임워크
HuggingFace 체크포인트 컬렉션 – 모든 실험 모델 및 로그

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

Join the conversation on Bluesky

AI Sparkup

데이터 고갈 시대의 해법: Diffusion 모델이 보여준 ‘크로스오버’ 현상

데이터를 200번 반복해도 계속 배운다

왜 Diffusion 모델이 더 효율적인가

실전 증명: 10B 토큰으로 경쟁력 있는 코더 만들기

검증 손실이 올라도 성능은 계속 오른다

의미와 한계

AI Sparkup 구독하기

Comments

Comments

답글 남기기 응답 취소

More posts

Claude AI가 자판기 운영하다 파산: WSJ 기자들의 3주간 사회공학 실험

GPT-5 시대는 끝? 2026년은 중국발 Qwen이 주도한다

AI가 “선행”을 베풀자 전설적 개발자가 격노한 이유

제로클릭 69% 시대, SEO 담당자가 알아야 할 AEO 4단계 프레임워크