LocateAnything – 병렬 박스 디코딩으로 빠른 비전-언어 그라운딩

문제: 좌표 토큰 순차 생성의 한계
해결책: Parallel Box Decoding (PBD)
Hybrid Inference Mode
성능
LocateAnything-Data
지원 태스크
논문
참고 자료
관련 문서

LocateAnything은 NVIDIA Research가 개발한 비전-언어 그라운딩 및 객체 감지 프레임워크다. 기존 VLM이 바운딩 박스 좌표를 순차적으로 토큰 단위로 생성하는 방식의 병목을 Parallel Box Decoding(PBD)으로 해결해, Qwen3-VL 대비 10배 이상 빠른 추론을 달성하면서 정확도도 높였다.

문제: 좌표 토큰 순차 생성의 한계

기존 VLM 기반 시각 그라운딩 방식은 바운딩 박스를 x1, y1, x2, y2 형태의 좌표 토큰으로 직렬화해 하나씩 순차 생성한다. 이 방식은 두 가지 문제를 만든다:

기하학적 일관성 손실: 박스 내 좌표들이 독립적으로 학습·디코딩되어 공간 구조가 맞지 않을 수 있다.
추론 병목: 토큰-by-토큰 순차 생성이 고속 처리를 제한한다.

해결책: Parallel Box Decoding (PBD)

PBD는 바운딩 박스 전체를 단일 순방향 패스(single forward pass)에서 하나의 원자 단위(atomic unit)로 예측한다. 좌표들 사이의 기하학적 결합성을 보존하면서 대규모 병렬 처리를 가능하게 한다.

Hybrid Inference Mode

기본으로 빠른 PBD 모드를 사용하고, 형식 불규칙성이나 공간 모호성이 감지되면 순차 방식(NTP)으로 자동 전환(fallback)한다. 대부분의 속도 이점을 유지하면서 출력 신뢰도를 보장한다.

성능

지표	LocateAnything	Qwen3-VL	Rex-Omni
디코딩 속도(BPS)	12.7	1.1	5.0
LVIS mean F1	Rex-Omni +3.8%p	—	기준
IoU=0.95 (LVIS)	31.1	—	20.7
ScreenSpot-Pro	60.3	—	—

단일 NVIDIA H100 GPU 기준, 기본 Hybrid Mode.

LocateAnything-Data

대규모 고품질 학습 데이터셋을 함께 공개했다:

138M 언어 쿼리
785M 바운딩 박스
커버리지: 일반 객체 감지, GUI 그라운딩, 참조 표현 이해, 텍스트 지역화, 포인트 기반 태스크

지원 태스크

문서 이해(Document Understanding)
GUI 그라운딩(GUI Grounding) — 아이콘, 버튼 위치 파악
밀도 높은 객체 감지(Dense Object Detection)
OCR 지역화
참조 표현 이해(Referring Expression Comprehension)
포인트 기반 지역화

논문

arXiv:2605.27365 — LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding (2026년 5월)

참고 자료

LocateAnything — NVIDIA Research
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding — arXiv (2026-05-26)

AI Sparkup