Dual-objective Language Models – AR과 마스크 확산을 결합한 오버피팅 없는 효율적 훈련

문제 배경
핵심 방법
주요 발견
의의
참고 자료

대규모 언어 모델 훈련의 지배적인 방식은 오토리그레시브(AR) 다음 토큰 예측이다. 학습 속도가 빠르고 대규모 텍스트 데이터를 빠르게 흡수할 수 있지만, 동일 데이터를 반복 학습할 때 오버피팅이 심하다는 단점이 있다. 이 문제는 사용 가능한 학습 데이터가 사실상 고갈되는 이른바 ‘데이터 장벽(data wall)’이 다가오면서 더욱 중요해졌다.

Dual-objective Language Models는 David Samuel과 Lucas Georges Gabriel Charpentier가 2025년 12월 발표(2026년 3월 개정)한 논문으로, AR과 마스크드 확산(masked-diffusion) 두 목적함수를 단일 모델에서 동시에 훈련해 이 딜레마를 해결하는 방법을 제안한다.

문제 배경

방식	장점	단점
AR (오토리그레시브)	높은 샘플 효율, 빠른 수렴	데이터 반복 시 오버피팅 심각
마스크드 확산	데이터 반복에도 오버피팅 강건	샘플 효율이 AR 대비 낮음

두 방식의 강점이 서로 상반되므로 결합하면 서로의 약점을 상쇄할 수 있다는 것이 핵심 아이디어다.

핵심 방법

동일한 트랜스포머 아키텍처와 파라미터를 사용하되, 입력 시퀀스와 어텐션 마스크만 바꿔 AR 모드와 마스크드 확산 모드를 전환한다. 별도 모델을 훈련하지 않아도 된다.

AR 모드: 단방향(unidirectional) 인과적 어텐션으로 다음 토큰 예측
마스크드 확산 모드: 양방향(bidirectional) 어텐션으로 마스킹된 토큰 복원

두 손실 함수(ℒ_AR, ℒ_MD)의 균형은 하이퍼파라미터 α로 조절하며, 처리량 손실 없이 각 GPU를 하나의 목적함수에 전담시켜 구현한다.

주요 발견

이중 목적 훈련은 AR 단독, 마스크드 확산 단독 대비 모든 평가 설정에서 우위
일반 데이터 환경에서도 이중 목적 모델이 순수 마스크드 확산 모델보다 성능이 좋음
데이터 반복 횟수와 α 비율의 관계를 체계적으로 매핑해, 최적 α 설정에 대한 실용적 가이드라인 제시

의의

LLM 사전 훈련에서 데이터 반복이 불가피해지는 상황에서, 아키텍처 변경 없이 훈련 목적함수만 바꿔 오버피팅을 억제하는 실용적인 해법을 제시한다. 모델 크기를 키우거나 새로운 아키텍처를 설계하지 않아도 되기 때문에, 기존 훈련 파이프라인에 비교적 쉽게 적용할 수 있다.

참고 자료

Dual-objective Language Models: Training Efficiency Without Overfitting — arXiv (2025-12-16, rev. 2026-03-27)

Like?

AI Sparkup

Dual-objective Language Models – AR과 마스크 확산을 결합한 오버피팅 없는 효율적 훈련

문제 배경

핵심 방법

주요 발견

의의

참고 자료

AI Sparkup 구독하기