AI 영상 생성 기술은 빠르게 발전하고 있지만, 고품질 영상을 만들기 위해서는 대부분 고성능 그래픽 카드나 클라우드 서비스가 필요했습니다. 그러나 최근 등장한 ‘FramePack’이 이 패러다임을 완전히 바꾸고 있습니다. 단 6GB VRAM만으로도 60초 길이의 고품질 AI 영상을 생성할 수 있게 된 것입니다. 노트북용 그래픽카드로도 고품질 AI 영상을 만들 수 있다니, 이것이 바로 AI 영상 생성 분야의 혁신이 아닐까요?
혁신적인 기술: FramePack이란?
FramePack은 GitHub의 Lvmin Zhang과 스탠포드 대학의 Maneesh Agrawala가 개발한 비디오 생성 방법으로, 비디오 길이와 상관없이 일정한 VRAM(최소 6GB)만으로 고품질 영상을 생성할 수 있습니다. 이 기술의 가장 큰 특징은 이미지를 입력하면 텍스트 프롬프트를 통해 영상으로 변환해주는 ‘Image-to-Video’ 기능입니다.
프레임 패킹과 메모리 효율성
FramePack의 핵심 원리는 ‘프레임 패킹(Frame Packing)’입니다. 일반적인 비디오 확산 모델은 이전에 생성된 모든 프레임을 참고하여 다음 프레임을 예측합니다. 이로 인해 비디오가 길어질수록 참고해야 할 과거 프레임의 수(시간적 컨텍스트)가 증가하고, 메모리 사용량도 급격히 늘어납니다.
프레임 패킹 기술은 시간적 거리에 따라 프레임을 다운샘플링하여 효율적으로 처리합니다. (출처: stable-diffusion-art.com)
FramePack은 이러한 문제를 획기적으로 해결합니다. 비디오 생성에서 모든 과거 프레임이 동일하게 중요한 것은 아닙니다. FramePack은 시간적 거리에 따라 프레임의 중요도를 판단하고, 먼 과거의 프레임일수록 더 많이 다운샘플링하여 고정된 길이의 컨텍스트로 압축합니다. 이 방식으로 비디오 길이와 상관없이 메모리 사용량을 일정하게 유지할 수 있게 되었습니다.
안티-드리프팅 샘플링으로 품질 유지
영상 생성에서 흔히 발생하는 문제 중 하나는 ‘드리프팅(drifting)’입니다. 이는 생성된 프레임을 기반으로 다음 프레임을 예측할 때 오류가 축적되어 시간이 지날수록 영상 품질이 저하되는 현상입니다.
FramePack은 ‘역방향 안티-드리프팅 샘플링(inverted anti-drifting sampling)’이라는 기법을 사용합니다. 이 방식은 영상을 역순으로 생성하며, 각 생성 과정이 고품질의 초기 프레임을 기준점으로 삼습니다. 이렇게 함으로써 비디오가 길어져도 일관된 품질을 유지할 수 있게 됩니다.
기존 AI 영상 생성 도구와의 차이점
FramePack과 기존 AI 영상 생성 도구(Wan 2.1, Hunyuan, LTX Video 등)의 가장 큰 차이점은 메모리 사용량입니다.
도구 | 필요 VRAM | 최대 비디오 길이 제한 |
---|---|---|
기존 모델 | 12GB 이상 | 메모리에 따라 제한됨 |
FramePack | 6GB | 제한 없음 (동일 메모리로 1분 이상 가능) |
기존 모델들은 비디오 길이가 길어질수록 메모리 사용량이 증가하여 결국 하드웨어 한계에 부딪힙니다. 반면 FramePack은 비디오 길이와 상관없이 일정한 메모리만 사용하기 때문에, 이론적으로는 무한히 긴 비디오도 생성할 수 있습니다(물론 시간은 더 걸립니다).
또한 FramePack은 ‘플러그 앤 플레이’ 방식으로 작동하여 기존 비디오 모델(현재는 Hunyuan Video 모델을 사용)의 일부 레이어만 미세 조정하고 샘플링 코드를 약간 변경하는 것만으로도 적용 가능합니다.
하드웨어 요구사항 및 성능
FramePack은 다음과 같은 하드웨어 요구사항을 가집니다:
- 최소 6GB VRAM을 가진 NVIDIA GPU (RTX 30XX, 40XX, 50XX 시리즈)
- FP16 및 BF16을 지원하는 그래픽 카드 (GTX 10XX/20XX 시리즈는 테스트되지 않음)
- Windows 또는 Linux 운영체제
성능 면에서는 하드웨어에 따라 차이가 있습니다:
- RTX 4090: 최적화 없이 초당 약 0.4프레임(2.5초/프레임), 티캐시(Teacache) 최적화 시 초당 약 0.67프레임(1.5초/프레임)
- 노트북용 3070ti 또는 3060: 4~8배 느림

FramePack의 사용자 인터페이스는 직관적이며, 실시간으로 생성 과정을 볼 수 있습니다. (출처: GitHub – lllyasviel/FramePack)
설치 및 사용 가이드
Windows 환경에서 FramePack을 설치하고 사용하는 방법을 단계별로 알아보겠습니다.
단계 1: 7-Zip 설치
FramePack 압축 파일을 푸는 데 필요한 7-Zip 소프트웨어를 설치합니다. 7-Zip 페이지에서 다운로드하거나 직접 다운로드 링크를 사용할 수 있습니다.
단계 2: FramePack 다운로드
FramePack GitHub 페이지에서 Windows용 패키지를 다운로드합니다.
단계 3: FramePack 압축 해제
다운로드한 파일을 우클릭하고 “추가 옵션 표시” > “7-Zip” > “framepack_cu126_torch26\”로 압축 해제를 선택합니다.
단계 4: FramePack 업데이트
“framepack_cu126_torch26” 폴더에서 “update.bat” 파일을 더블클릭하여 FramePack을 업데이트합니다.
단계 5: FramePack 실행
“framepack_cu126_torch26” 폴더에서 “run.bat” 파일을 더블클릭하여 FramePack을 시작합니다. 처음 실행할 때는 약 30GB의 모델 파일을 다운로드해야 하므로 시간이 걸릴 수 있습니다.
영상 생성 과정
FramePack으로 영상을 생성하는 과정은 직관적이고 간단합니다.
단계 1: 초기 이미지 업로드
FramePack 인터페이스의 “Image” 캔버스에 영상의 첫 프레임으로 사용할 이미지를 업로드합니다.
단계 2: 프롬프트 입력
원하는 영상의 내용을 설명하는 텍스트 프롬프트를 입력합니다. 예: “a crochet doll dancing on a desk”
단계 3: 영상 설정 조정
생성 설정을 조정합니다:
- Teacache: 영상 생성 속도를 높이지만 손가락 같은 작은 디테일에 문제가 생길 수 있습니다.
- Seed: 다른 값으로 다양한 영상을 생성할 수 있습니다.
- Steps: 확산 단계 수입니다. 기본 설정을 유지하세요.
- Distilled CFG Scale: 프롬프트를 얼마나 충실히 따를지 조절합니다. 기본 설정을 유지하세요.
- GPU inference preserved memory (GB): 메모리 오류가 발생한다면 이 값을 높이세요.
- 영상 길이: 원하는 영상 길이(초)를 설정합니다.
단계 4: 영상 생성
“Start Generation”을 클릭하여 영상 생성을 시작합니다. FramePack은 역방향으로 영상을 생성하기 때문에, 먼저 영상의 끝부분을 생성한 후 시작 부분으로 확장합니다. RTX 4090 기준으로 5초 길이 영상을 생성하는 데 약 10분이 소요됩니다.
활용 사례 및 예시
FramePack은 다양한 형태의 영상을 생성할 수 있습니다. 몇 가지 예시를 살펴보겠습니다:
- 인물 댄스 영상: “The man dances powerfully, with clear movements, full of energy.”
- 캐릭터 애니메이션: “The girl suddenly took out a sign that said ‘cute’ using right hand”
- 스포츠 활동: “The girl skateboarding, repeating the endless spinning and dancing and jumping on a skateboard”
프롬프트 작성에 어려움이 있다면, ChatGPT에 다음과 같은 지시를 주고 이미지를 업로드하여 도움을 받을 수 있습니다:
You are an assistant that writes short, motion-focused prompts for animating images.
When the user sends an image, respond with a single, concise prompt describing visual motion.
Larger and more dynamic motions are preferred over smaller or more subtle ones.
Describe subject, then motion, then other things. For example: "The girl dances gracefully, with clear movements, full of charm."
If there is something that can dance, then prefer to describe it as dancing.
AI 영상 생성의 미래와 FramePack의 의의
FramePack의 등장은 AI 영상 생성 분야에 큰 변화를 가져올 것으로 예상됩니다. 지금까지 고품질 AI 영상 생성은 고가의 구독 서비스나 고성능 서버를 통해서만 가능했지만, FramePack은 이러한 제한을 깨고 일반 사용자들에게도 AI 영상 생성 기술을 접근 가능하게 만들었습니다.
특히 130억 파라미터를 가진 대형 모델임에도 불구하고 6GB VRAM이라는 적은 메모리로 운영할 수 있다는 점은 기술적으로 큰 돌파구입니다. 이는 노트북급 그래픽 카드로도 전문적인 수준의 영상을 생성할 수 있게 되었음을 의미합니다.
또한 FramePack은 오픈소스로 공개되어 있어 누구나 무료로, 그리고 자유롭게 활용할 수 있다는 점도 큰 의미가 있습니다. 이는 더 많은 사람들이 AI 영상 생성 기술을 실험하고 발전시킬 수 있는 기회를 제공합니다.
앞으로 FramePack과 같은 혁신적인 기술들이 더욱 발전한다면, 개인 크리에이터들이 복잡한 영상 제작 과정 없이도 자신의 아이디어를 시각화할 수 있게 될 것입니다. 또한 교육, 엔터테인먼트, 마케팅 등 다양한 분야에서 AI 영상 생성 기술의 활용이 더욱 확대될 것으로 기대됩니다.
결론
FramePack은 AI 영상 생성의 민주화를 이끄는 혁신적인 기술입니다. 강력한 그래픽 카드 없이도 고품질 AI 영상을 생성할 수 있게 되었다는 것은, 더 많은 사람들이 자신의 창의성을 영상으로 표현할 수 있게 되었다는 의미입니다.
물론 아직은 초기 단계이고 개선의 여지가 있지만, FramePack이 보여준 가능성은 AI 영상 생성 기술의 밝은 미래를 예고합니다. 일반 사용자도 쉽게 접근할 수 있는 AI 영상 생성 도구의 등장으로, 우리는 더 다양하고 창의적인 영상 콘텐츠의 시대를 맞이하게 될 것입니다.
Comments