대규모 3D 재구성은 많은 시점의 이미지를 동시에 비교해야 하므로 입력 프레임 수가 늘수록 전역 어텐션(global attention) 비용이 급격히 커진다. FastVGGT는 VGGT(Visual Geometry Transformer)의 전역 어텐션에서 중복 시각 토큰을 학습 없이 병합(token merging)해 이 병목을 줄이는 연구다. 논문은 ScanNet-50의 1,000장 입력 점군 재구성에서 최적화된 VGGT 기준 724.6초를 180.7초로 줄였다고 보고한다.
관찰: 전역 어텐션에 중복이 많다
VGGT는 카메라 파라미터, 깊이, 점 맵, 트랙을 feed-forward Transformer로 추론한다. 긴 이미지 시퀀스에서는 프레임 사이 관계를 처리하는 전역 어텐션이 실행 시간과 메모리의 주 병목이 된다. 연구팀은 여러 토큰의 전역 attention map이 유사해지는 token collapse 현상을 관찰하고, 중복 계산을 합칠 수 있다고 판단했다.
학습 없는 토큰 병합 전략
| 토큰 그룹 | 처리 | 이유 |
|---|---|---|
| 첫 프레임 토큰 | destination으로 보존 | 세계 좌표계 기준 프레임 유지 |
| salient 토큰 | 병합하지 않고 직접 attention 참여 | 프레임 간 대응의 핵심 특징 보존 |
| source 토큰 | 유사한 destination 토큰으로 병합 | 중복 계산 축소 |
지역 기반 무작위 샘플링(region-based random sampling)을 사용해 특정 이미지 영역이 과도하게 압축되지 않게 하고, attention 후에는 unmerging으로 원래 토큰 해상도의 dense 출력 형식을 유지한다.
결과와 해석
| 입력 이미지 수 | VGGT* | FastVGGT |
|---|---|---|
| 100 | 9.1초 | 5.4초 |
| 300 | 131.4초 | 23.8초 |
| 500 | 177.5초 | 55.2초 |
| 1,000 | 724.6초 | 180.7초 |
VGGT*는 추론에서 사용하지 않는 중간 레이어 출력을 폐기해 1,000장 입력을 처리할 수 있게 한 논문의 메모리 최적화 기준선이다. FastVGGT는 새 모델을 다시 훈련하지 않고도 긴 시퀀스에서 속도와 재구성 오류 누적을 함께 개선하는 접근이라는 점이 실용적이다.
누가 관심을 둘 만한가
- 영상·다중 뷰 이미지로 3D 장면을 복원하는 컴퓨터 비전 연구자
- 디지털 트윈, 로보틱스, 공간 매핑에서 긴 시퀀스 추론 비용을 줄이려는 팀
- Vision Transformer의 토큰 축소 기법을 dense 3D 작업에 적용하려는 엔지니어
참고 자료
- FastVGGT: Training-Free Acceleration of Visual Geometry Transformer – arXiv:2509.02560v2 (2025-11-09)