DiScoFormer(Density and Score Transformer)는 데이터 샘플 집합을 입력받아 그 분포의 밀도(density)와 스코어(score)를 한 번에 추정하는 트랜스포머 모델이다. 확산 모델, 베이지안 샘플링, 과학 시뮬레이션처럼 스코어 추정이 반복적으로 필요한 영역을 겨냥한다.
배경
고전적인 커널 밀도 추정(KDE)은 별도 학습 없이 임의 분포에 적용할 수 있지만, 차원이 커질수록 정확도가 빠르게 떨어진다. 반대로 신경망 기반 스코어 매칭 모델은 고차원에서 강하지만, 분포가 바뀔 때마다 다시 학습해야 한다.
DiScoFormer는 이 둘 사이의 간극을 줄이려 한다. 샘플 집합 전체를 보고, 관심 지점의 밀도와 스코어를 동시에 출력한다. Allen AI는 단일 어텐션 헤드가 가우시안 커널과 유사하게 동작할 수 있다는 분석을 바탕으로, 트랜스포머가 KDE를 일반화하는 구조라고 설명한다.
구조
| 구성 | 역할 |
|---|---|
| 샘플 집합 입력 | 분포를 대표하는 유한 샘플을 모델에 제공 |
| 크로스 어텐션 | 데이터가 있는 지점뿐 아니라 임의 평가 지점에서 밀도·스코어 계산 |
| 공유 백본 | 분포 표현을 공통으로 학습 |
| 두 출력 헤드 | 밀도와 로그 밀도의 기울기인 스코어를 각각 출력 |
훈련 데이터는 주로 가우시안 혼합 모델(GMM)에서 생성한다. GMM은 닫힌 형태의 밀도와 스코어를 제공하므로, 무한히 다양한 감독 신호를 만들 수 있다.
왜 중요한가
DiScoFormer가 일반화에 성공하면, 문제마다 스코어 모델을 다시 학습하는 비용을 줄일 수 있다. 특히 확산 생성, 물리 시뮬레이션, 불확실성 추정처럼 스코어 함수가 핵심 부품인 연구 코드에서 플러그인 추정기로 쓰일 가능성이 있다.
관련 문서
- in-place-ttt — 추론 중 모델 적응을 다루는 접근
- frontier-tuning — 모델 행동을 실제 사용 환경에 맞추는 조정
참고 자료
- DiScoFormer: One transformer for density and score, across distributions — Hugging Face / Allen AI (2026-07-01 확인)