AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장

에이전트가 수십 번의 추론 호출을 연속으로 날리는 상황을 떠올려 보세요. 한 번의 지연이 아니라, 그 지연이 매 단계마다 쌓입니다. AI 스타트업 Inception Labs는 바로 이 복리 지연 문제를 겨냥한 모델을 내놨습니다.

사진 출처: Inception Labs

Inception Labs가 Mercury 2를 공개했습니다. 기존 언어 모델이 모두 채택한 자동회귀(autoregressive) 방식 대신, 확산(diffusion) 아키텍처를 기반으로 한 첫 번째 상용 추론 모델입니다. 엔드투엔드 레이턴시 1.7초, 초당 1,009 토큰이라는 수치가 이 모델의 핵심입니다.

출처: Introducing Mercury 2 – Inception Labs

기존 LLM과 무엇이 다른가

현재 거의 모든 LLM은 토큰을 왼쪽에서 오른쪽으로 하나씩 순차 생성합니다. 이 방식은 아무리 GPU가 빨라도 순서상 앞 토큰이 나와야 다음 토큰을 만들 수 있어서 구조적 병목이 존재합니다.

Mercury 2는 이 병목을 다르게 접근합니다. 확산 모델이 이미지를 처리하는 방식과 비슷하게, 처음에 전체 응답의 초안을 병렬로 생성하고, 이를 여러 단계에 걸쳐 점진적으로 정제하는 방식입니다. 한 글자씩 타이핑하는 타자기가 아니라, 초안 전체를 한 번에 고쳐쓰는 편집자에 가깝습니다. Inception은 이 방식으로 기존 대비 5배 이상 빠른 생성 속도를 확보했다고 밝힙니다.

속도와 가격 수치

The Decoder가 정리한 비교 데이터를 보면 격차가 선명합니다. Mercury 2의 엔드투엔드 레이턴시는 1.7초인데 비해, Gemini 3 Flash (reasoning)는 14.4초, Claude Haiku 4.5 (reasoning)는 23.4초입니다.

가격도 낮습니다. 입력 $0.25/1M, 출력 $0.75/1M으로, Gemini 3 Flash($0.50/$3.00)나 Claude Haiku 4.5($1.00/$5.00)에 비해 상당히 저렴합니다. 품질 면에서는 GPQA Diamond 74점, AIME 91점 등 속도 최적화 계열 모델들과 경쟁할 수 있는 수준이라고 회사 측은 주장합니다.

Mercury 2는 128K 컨텍스트 창, 네이티브 도구 사용, JSON 스키마 출력을 지원하며, OpenAI API와 호환되어 기존 스택에 바로 연결할 수 있습니다.

왜 지금 중요한가

추론 모델의 병목이 속도와 비용이라는 점은 업계 공통의 고민입니다. 고성능 추론을 쓸수록 레이턴시와 비용이 올라가는 트레이드오프가 있었는데, Mercury 2는 이 트레이드오프를 구조적으로 다르게 설정하려는 시도입니다. 특히 에이전트 파이프라인, 음성 인터페이스, 코딩 자동완성처럼 레이턴시가 사용자 경험을 직접 결정하는 영역에서 실용성이 있습니다.

주목할 만한 점은 구글 DeepMind도 유사한 방향으로 실험하고 있다는 사실입니다. Gemini Diffusion이 2025년 5월 공개된 바 있지만, 이후 특별한 업데이트가 없는 상황에서 Mercury 2가 먼저 프로덕션 수준의 모델을 상용화했습니다. Transformer 이후 아키텍처 탐색이 가속화되는 흐름 속에서, 확산 기반 LLM이 실제 서비스 환경에서 얼마나 유효한지 검증되는 첫 사례라는 점에서 의미가 있습니다.

벤치마크 상세 결과와 아키텍처의 기술적 세부사항은 원문에서 확인할 수 있습니다.

참고자료: Inception launches Mercury 2, the first diffusion-based language reasoning model – The Decoder


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다