AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

FastVGGT – 토큰 병합으로 VGGT 3D 재구성 추론을 최대 4배 가속하는 방법

2026-05-24

목차

관찰: 전역 어텐션에 중복이 많다
학습 없는 토큰 병합 전략
결과와 해석
누가 관심을 둘 만한가
참고 자료

대규모 3D 재구성은 많은 시점의 이미지를 동시에 비교해야 하므로 입력 프레임 수가 늘수록 전역 어텐션(global attention) 비용이 급격히 커진다. FastVGGT는 VGGT(Visual Geometry Transformer)의 전역 어텐션에서 중복 시각 토큰을 학습 없이 병합(token merging)해 이 병목을 줄이는 연구다. 논문은 ScanNet-50의 1,000장 입력 점군 재구성에서 최적화된 VGGT 기준 724.6초를 180.7초로 줄였다고 보고한다.

관찰: 전역 어텐션에 중복이 많다

VGGT는 카메라 파라미터, 깊이, 점 맵, 트랙을 feed-forward Transformer로 추론한다. 긴 이미지 시퀀스에서는 프레임 사이 관계를 처리하는 전역 어텐션이 실행 시간과 메모리의 주 병목이 된다. 연구팀은 여러 토큰의 전역 attention map이 유사해지는 token collapse 현상을 관찰하고, 중복 계산을 합칠 수 있다고 판단했다.

학습 없는 토큰 병합 전략

토큰 그룹	처리	이유
첫 프레임 토큰	destination으로 보존	세계 좌표계 기준 프레임 유지
salient 토큰	병합하지 않고 직접 attention 참여	프레임 간 대응의 핵심 특징 보존
source 토큰	유사한 destination 토큰으로 병합	중복 계산 축소

지역 기반 무작위 샘플링(region-based random sampling)을 사용해 특정 이미지 영역이 과도하게 압축되지 않게 하고, attention 후에는 unmerging으로 원래 토큰 해상도의 dense 출력 형식을 유지한다.

결과와 해석

입력 이미지 수	VGGT*	FastVGGT
100	9.1초	5.4초
300	131.4초	23.8초
500	177.5초	55.2초
1,000	724.6초	180.7초

VGGT*는 추론에서 사용하지 않는 중간 레이어 출력을 폐기해 1,000장 입력을 처리할 수 있게 한 논문의 메모리 최적화 기준선이다. FastVGGT는 새 모델을 다시 훈련하지 않고도 긴 시퀀스에서 속도와 재구성 오류 누적을 함께 개선하는 접근이라는 점이 실용적이다.

누가 관심을 둘 만한가

영상·다중 뷰 이미지로 3D 장면을 복원하는 컴퓨터 비전 연구자
디지털 트윈, 로보틱스, 공간 매핑에서 긴 시퀀스 추론 비용을 줄이려는 팀
Vision Transformer의 토큰 축소 기법을 dense 3D 작업에 적용하려는 엔지니어

참고 자료

FastVGGT: Training-Free Acceleration of Visual Geometry Transformer – arXiv:2509.02560v2 (2025-11-09)

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)