NVIDIA 연구팀의 TTT를 활용한 1분짜리 톰과 제리 만화 생성 (출처: Analytics Vidhya)
AI 기술이 빠르게 발전하면서 텍스트로부터 비디오를 생성하는 기술도 놀라운 발전을 이루고 있습니다. OpenAI의 Sora, Google의 Veo, Meta의 Movie Gen 등 대형 기술 기업들이 경쟁적으로 선보이는 생성형 AI 비디오 모델들은 놀라운 시각적 품질을 보여주지만, 한 가지 공통된 한계가 있었습니다. 바로 비디오 길이입니다. 대부분의 최신 모델들이 20초 미만의 짧은 클립 생성에 그치고 있는 가운데, NVIDIA, 스탠포드, UC 버클리 등의 연구팀이 이러한 한계를 극복할 수 있는 획기적인 방법을 개발해냈습니다.
왜 긴 비디오 생성이 어려웠을까?
현재 AI 비디오 생성 모델들이 짧은 영상만 생성할 수 있는 이유는 무엇일까요? 그 핵심에는 ‘컨텍스트(맥락)’의 문제가 있습니다. 1분 길이의 스토리가 있는 비디오를 생성하려면 모델은 30만 개 이상의 토큰을 처리하면서 내러티브와 시각적 일관성을 유지해야 합니다.
대부분의 비디오 생성 모델은 트랜스포머(Transformer) 아키텍처를 기반으로 하는데, 이 구조는 자기 주의(self-attention) 메커니즘에 의존합니다. 문제는 이 메커니즘이 시퀀스 길이에 따라 계산 비용이 제곱으로 증가한다는 점입니다. 즉, 영상이 길어질수록 컴퓨팅 요구사항이 기하급수적으로 늘어나 효율성이 떨어지고 일관성 유지가 어려워집니다.
일부 연구팀들은 Mamba나 DeltaNet 같은 순환 신경망(RNN) 구조를 활용해 이 문제를 해결하려 했습니다. RNN은 선형 시간 복잡도로 컨텍스트를 처리할 수 있지만, 고정 크기의 hidden state로 컨텍스트를 압축하기 때문에 표현력이 제한됩니다. 마치 전체 영화를 엽서 크기에 담으려는 것과 같아, 많은 세부 사항이 손실될 수밖에 없습니다.
TTT(Test-Time Training)의 혁신
NVIDIA를 중심으로 한 연구팀은 이 문제를 해결하기 위해 ‘Test-Time Training(TTT)’ 기법을 도입했습니다. TTT의 핵심 아이디어는 RNN의 hidden state를 고정된 행렬이 아닌 학습 가능한 신경망으로 만드는 것입니다.
구체적으로, 연구팀은 TTT 레이어라는 작은 2층 MLP(다층 퍼셉트론) 구조를 도입했습니다. 이 레이어들은 입력 시퀀스를 처리하는 동안 자기 지도 학습(self-supervised learning)을 통해 실시간으로 적응합니다. 비행 중에 적응하는 모델이라고 상상해보세요. 비디오가 전개됨에 따라 모델의 내부 메모리가 등장인물, 움직임, 스토리라인을 더 잘 이해하도록 조정됩니다.
이 접근법의 가장 큰 장점은 모델이 추론(inference) 중에도 학습하고 적응할 수 있다는 점입니다. 기존의 모델들이 훈련 후 고정된 파라미터로 작동하는 반면, TTT는 비디오를 생성하는 과정에서도 진화하며 스토리의 일관성을 유지합니다.

Test-Time Training(TTT) 작동 원리: 모델이 추론 중에도 학습하는 구조 (출처: Medium/The Deep Hub)
연구팀의 구현 방법
연구팀은 이 아이디어를 어떻게 실제로 구현했을까요? 그들은 먼저 3초 클립을 생성할 수 있는 사전 훈련된 디퓨전 트랜스포머 모델인 CogVideo-X 5B를 기반으로 했습니다. 여기에 TTT 레이어를 삽입하고, 더 긴 시퀀스를 처리할 수 있도록 추가 훈련했습니다.
비용 효율성을 위해 자기 주의 메커니즘은 3초 짜리 짧은 세그먼트에만 제한적으로 적용하고, TTT 레이어가 이러한 세그먼트 전반에 걸쳐 글로벌 내러티브를 이해하는 역할을 담당했습니다. 이 아키텍처에는 초기 훈련 중 TTT 레이어가 성능을 저하시키지 않도록 하는 게이팅 메커니즘도 포함되어 있습니다.
또한 연구팀은 시퀀스를 양방향으로 처리하고 비디오를 주석이 달린 장면으로 세분화하여 훈련을 강화했습니다. 예를 들어, 스토리보드 형식을 사용하여 각 3초 세그먼트를 배경, 캐릭터 위치, 카메라 각도, 액션 등을 포함해 상세히 설명했습니다.
TTT와 다른 모델들(Transformer, Mamba)의 처리 속도 비교 (출처: Medium/The Deep Hub)
톰과 제리: 데이터셋의 선택
연구의 기반이 될 일관되고 잘 이해된 시각적 도메인을 마련하기 위해, 연구팀은 클래식 ‘톰과 제리’ 만화에서 7시간 분량의 데이터셋을 수집했습니다. 이 컨텐츠는 장면별로 분할되고 3초 세그먼트로 세밀하게 주석 처리되었습니다.
카툰 데이터를 선택한 이유는 사실적인 영상의 복잡성을 피하고 내러티브 일관성과 움직임 역학에 집중하기 위함이었습니다. 인간 주석자들은 각 세그먼트에 대한 설명 문단을 작성했으며, 이를 통해 모델은 학습에 필요한 풍부하고 구조화된 입력을 확보할 수 있었습니다.
이렇게 준비된 데이터셋은 모델의 단계적 훈련을 가능하게 했습니다. 먼저 3초 클립으로 시작해 점진적으로 63초까지 더 긴 시퀀스로 확장해 나갔습니다.

TTT로 생성된 톰과 제리 AI 영상 장면들 (출처: test-time-training.github.io)
성능 평가: 정말 작동할까?
놀랍게도 TTT 모델은 매우 인상적인 성능을 보여주었습니다. Mamba 2, Gated DeltaNet, sliding-window attention 등 주요 기준선 모델들과 비교했을 때, TTT-MLP 모델은 100개 비디오에 대한 인간 평가에서 평균 34 Elo 포인트 더 높은 점수를 받았습니다.
평가는 다음과 같은 요소를 고려했습니다:
- 텍스트 정렬: 비디오가 프롬프트를 얼마나 잘 따르는지
- 움직임 자연스러움: 캐릭터 움직임의 사실감
- 미적 요소: 조명, 색상, 시각적 매력
- 시간적 일관성: 장면 전반의 시각적 일관성
TTT-MLP 모델은 특히 움직임과 장면 일관성 측면에서 두각을 나타냈으며, 다른 모델들이 어려움을 겪었던 동적 액션 전반에 걸친 논리적 연속성을 유지했습니다.

TTT-MLP와 다른 모델들의 비디오 생성 결과 비교 (출처: Analytics Vidhya)
한계점과 미래 방향
유망한 결과에도 불구하고 아직 몇 가지 아티팩트(결함)가 존재합니다. 조명이 일관되지 않게 변하거나, 움직임이 부자연스러울 수 있습니다(예: 치즈가 부자연스럽게 공중에 떠 있는 현상). 이러한 문제는 기본 모델인 CogVideo-X의 한계와 관련이 있을 가능성이 높습니다.
또 다른 병목 현상은 효율성입니다. TTT-MLP는 완전한 자기 주의 모델보다 2.5배 빠르지만, Gated DeltaNet과 같은 더 단순한 RNN 접근 방식보다는 여전히 느립니다. 그럼에도 불구하고 TTT는 처음부터 훈련할 필요 없이 미세 조정만 하면 되므로 많은 사용 사례에서 더 실용적입니다.
연구팀은 향후 개선 방향으로 다음과 같은 가능성을 제시했습니다:
- TTT 커널 최적화로 추론 속도 향상
- 더 크고 다양한 기반 모델 실험
- 더 복잡한 스토리라인과 도메인 탐색
- MLP 대신 트랜스포머 기반 hidden state 활용
TTT와 다른 모델들의 긴 문맥 처리 능력 비교 – 문맥이 길어질수록 TTT의 장점이 두드러짐 (출처: Medium/The Deep Hub)
다른 비디오 생성 모델과의 비교
TTT 비디오 생성 기술은 현재 시장에 있는 다른 AI 비디오 생성 모델들과 어떻게 다를까요? 아래 표는 주요 모델들과의 차이점을 보여줍니다:
모델 | 핵심 초점 | 입력 유형 | 주요 특징 | TTT와의 차이점 |
---|---|---|---|---|
TTT (Test-Time Training) | 장시간 비디오 생성과 동적 적응 | 텍스트 스토리보드 | – 추론 중 적응 – 60초 이상 비디오 처리 – 다중 장면 스토리 일관성 | 긴 비디오용으로 설계; 내러티브 일관성을 위해 생성 중 내부 상태 업데이트 |
MoCha (Meta) | 대화형 캐릭터 생성 | 텍스트 + 음성 | – 키포인트나 참조 이미지 불필요 – 음성 기반 전신 애니메이션 | 전체 장면 내러티브 비디오가 아닌 캐릭터 대화와 표현에 초점 |
Goku | 고품질 비디오 및 이미지 생성 | 텍스트, 이미지 | – Rectified Flow Transformers – 다중 모달 입력 지원 | 품질과 훈련 속도 최적화; 장시간 스토리텔링용 설계 아님 |
OmniHuman1 (ByteDance) | 실감나는 인간 애니메이션 | 이미지 + 오디오 + 텍스트 | – 다중 조건부 신호 – 고해상도 아바타 | 생생한 인간 창작; 긴 시퀀스나 동적 장면 전환 모델링하지 않음 |
DreamActor-M1 (ByteDance) | 이미지-애니메이션 변환 (얼굴/신체) | 이미지 + 구동 비디오 | – 전체적 움직임 모방 – 프레임 일관성 높음 | 정적 이미지 애니메이션화; 텍스트 사용하지 않고 장면별 스토리 생성 처리 안 함 |
결론
Test-Time Training은 장시간 컨텍스트 비디오 생성 문제를 해결하는 새로운 접근법을 제시합니다. 모델이 추론 중에도 학습하고 적응할 수 있게 함으로써, 스토리텔링에서 중요한 연속성, 감정, 페이싱 등의 요소를 시각적 충실도만큼 중요하게 다룰 수 있는 틀을 마련했습니다.
생성형 AI 연구자든, 크리에이티브 기술자든, AI 생성 미디어의 미래에 관심 있는 제품 리더든, 이 연구는 동적이고 일관된 비디오 합성의 미래를 가리키는 중요한 이정표가 될 것입니다.
향후 몇 년 내에 이 기술이 더욱 발전한다면, 영화 제작, 교육 콘텐츠, 마케팅 등 다양한 분야에서 혁신적인 변화를 가져올 수 있을 것입니다. AI가 단순한 이미지나 짧은 클립을 넘어 복잡한 내러티브를 담은 긴 비디오를 생성할 수 있게 됨으로써, 컨텐츠 창작의 새로운 지평이 열리고 있습니다.
Comments