Lightricks가 공개한 LTX-2는 영상과 오디오를 동시에 생성하는 최초의 오픈소스 AI 비디오 모델입니다. 4K 해상도와 50fps를 소비자급 GPU에서 구현하면서도 기존 모델 대비 50% 낮은 연산 비용을 달성했죠. 이는 단순한 성능 개선이 아니라 프로덕션 워크플로우 전체를 재정의하는 변화입니다.

핵심 포인트:
- 오디오-비디오 동기화 생성: 대화, 배경음, 음악이 영상의 움직임과 완벽하게 일치하도록 단일 프로세스에서 생성. 기존처럼 영상과 오디오를 따로 만들어 합치는 번거로움 제거
- 4K 50fps를 소비자급 GPU에서: 하이브리드 DiT 아키텍처와 멀티 GPU 추론 스택으로 프로페셔널급 품질을 일반 사용자도 접근 가능하게 구현
- 11월 말 완전 오픈소스 공개: 모델 가중치, 코드, 벤치마크를 모두 공개해 연구자와 개발자가 자유롭게 파인튜닝하고 확장 가능
오픈소스의 벽을 넘은 오디오-비디오 통합
OpenAI의 Sora 2나 Meta의 Movie Gen처럼 영상과 오디오를 동시에 생성하는 모델들이 이미 등장했지만, 모두 상용 서비스나 비공개 모델입니다. LTX-2는 이런 수준의 멀티모달 생성을 오픈소스로 공개하는 최초의 모델입니다.
모델은 영상의 모션, 대화, 배경 소리, 음악을 하나의 통합된 프로세스에서 동시에 생성합니다. 캐릭터가 걷는 발걸음 소리, 바람에 흔들리는 나뭇잎 소리, 대화의 억양과 타이밍이 모두 영상과 완벽하게 동기화되죠. 이건 단순히 편의성을 넘어선 질적 변화입니다. 영상과 오디오가 서로를 인지하며 생성되기 때문에 훨씬 자연스럽고 일관된 결과물이 나옵니다.
LTX-2는 세 가지 성능 모드를 제공합니다. Fast 모드는 라이브 프리뷰나 빠른 아이디어 검증에 최적화되어 있고, Pro 모드는 품질과 속도의 균형을 맞춰 일상적인 콘텐츠 제작에 적합합니다. 곧 출시될 Ultra 모드는 4K 50fps에 동기화된 오디오까지 지원하는 시네마틱 품질을 제공하죠.
기술적 혁신이 가능하게 만든 것들
LTX-2의 핵심은 하이브리드 diffusion-transformer 아키텍처입니다. 기존 모델들이 Video-VAE와 디노이징 트랜스포머를 독립적으로 다뤘다면, LTX-2는 이 둘의 상호작용을 최적화했습니다.
Video-VAE는 1:192라는 높은 압축률을 달성합니다. 32x32x8 픽셀을 하나의 토큰으로 압축하는데, 이게 가능한 이유는 패치화 작업을 트랜스포머 입력이 아닌 VAE 입력으로 옮겼기 때문이죠. 이렇게 압축된 잠재 공간에서 트랜스포머가 전체 시공간 셀프 어텐션을 효율적으로 수행합니다.
하지만 높은 압축은 세부 디테일 손실을 야기합니다. LTX-2는 이를 독특한 방식으로 해결했습니다. VAE 디코더가 단순히 잠재 공간을 픽셀로 변환하는 게 아니라 최종 디노이징 단계까지 수행하는 거죠. 픽셀 공간에서 직접 깨끗한 결과물을 생성하기 때문에 별도의 업샘플링 모듈 없이도 세밀한 디테일을 유지합니다.
멀티 GPU 추론 스택은 재생 속도보다 빠른 생성을 가능하게 만들었습니다. Nvidia H100에서 768×512 해상도의 5초짜리 24fps 비디오를 단 2초 만에 생성합니다. 실시간보다 2.5배 빠른 셈이죠.
세밀한 제어와 창작의 자유
LTX-2는 단순히 프롬프트를 입력하면 끝나는 블랙박스가 아닙니다. 멀티 키프레임 컨디셔닝을 통해 특정 프레임에 이미지나 짧은 비디오 세그먼트를 조건으로 제공할 수 있습니다. 시작 장면과 끝 장면을 지정하고 중간 과정을 모델이 채우도록 하거나, 여러 키프레임을 통해 복잡한 시퀀스를 구성할 수 있죠.
3D 카메라 로직은 전문가 수준의 카메라 워크를 구현합니다. 부드러운 팬, 안정적인 줌, 역동적인 포커스 전환이 가능합니다. 프롬프트에 “카메라가 천천히 왼쪽으로 돌리하며 주인공의 얼굴을 따라간다”고 적으면 실제로 그런 움직임이 구현되죠.
LoRA 어댑터는 브랜드 스타일이나 특정 IP의 일관성을 유지하는 데 활용됩니다. 파인튜닝을 통해 자신만의 시각적 스타일을 모델에 학습시킬 수 있고, 이를 프로젝트 전반에 걸쳐 일관되게 적용할 수 있습니다.

실무에서 바로 활용하는 방법
LTX-2는 지금 바로 사용할 수 있습니다. 가장 빠른 방법은 Fal, Replicate, ComfyUI 같은 플랫폼을 통한 접근입니다.
Fal.ai를 통한 즉시 사용: Fal의 Playground에서 프롬프트만 입력하면 즉시 결과를 확인할 수 있습니다. 텍스트-투-비디오와 이미지-투-비디오 모두 지원하고, Fast와 Pro 모드를 선택해 속도와 품질을 조절할 수 있습니다. API 문서를 통해 자신의 플랫폼에 직접 통합하는 것도 가능하죠.
Replicate 통합: Replicate에서는 ltx-2-pro 모델을 API로 호출할 수 있습니다. 일일 콘텐츠 제작, 마케팅 팀의 반복 작업, 크리에이티브 워크플로우에 적합한 설정이 준비되어 있습니다.
ComfyUI로 완전한 제어: 로컬 환경에서 모델을 직접 실행하고 싶다면 ComfyUI가 최선입니다. GitHub 저장소에서 ComfyUI-LTXVideo 노드를 설치하고, 예제 워크플로우를 불러오면 됩니다. 멀티스케일 렌더링, 키프레임 애니메이션, 비디오 확장 등 고급 기능을 세밀하게 조정할 수 있죠.
API Playground는 4K 생성과 동기화된 오디오를 통합 전에 테스트해볼 수 있는 환경을 제공합니다. LTX-2 웹사이트를 통해 API 접근을 요청할 수 있고, 현재 얼리 파트너와 팀들에게 점진적으로 롤아웃되고 있습니다.
편집 도구, VFX 스택, 게임 엔진과의 직접 통합도 지원됩니다. 이미 생성된 비디오를 기존 파이프라인에 끼워넣는 게 아니라, 생성 과정 자체를 워크플로우에 통합할 수 있다는 의미입니다.
오픈소스가 만들 생태계
LTX-2의 진짜 잠재력은 2025년 11월 말 오픈소스 릴리스 이후에 펼쳐질 겁니다. 모델 가중치, 전체 코드베이스, 벤치마크 데이터가 공개되면 연구자들은 아키텍처를 분석하고 개선할 수 있고, 개발자들은 특정 사용 사례에 맞춰 파인튜닝할 수 있습니다.
이미 LTX-Video 커뮤니티는 다양한 확장을 만들어냈습니다. ComfyUI-LTXTricks는 RF-Inversion, FlowEdit 같은 고급 기법을 구현했고, LTX-VideoQ8은 8비트 최적화로 RTX 4060 같은 보급형 GPU에서도 실행 가능하게 만들었죠. 오픈소스 릴리스는 이런 혁신을 가속화할 겁니다.
Lightricks는 단순히 모델을 공개하는 걸 넘어 생태계를 구축하려 합니다. API, SDK, 다양한 플랫폼과의 통합이 이미 준비되어 있고, Discord 커뮤니티에서는 개발자들이 피드백을 공유하고 프로젝트를 협업하고 있습니다.
AI 비디오 생성이 일부 기업의 폐쇄적인 기술이 아니라 누구나 접근하고 확장할 수 있는 오픈 플랫폼이 되는 순간, 우리가 상상하지 못했던 활용 사례들이 등장할 겁니다.
참고자료:

답글 남기기