AI Sparkup

복잡한 AI 세상을 읽는 힘

WAN 2.1 T2V LoRA 완벽 가이드: 손쉽게 스타일이 적용된 AI 영상 만들기

AI 영상 생성 기술이 급속도로 발전하면서 WAN 2.1(Weighted Average Network)은 텍스트나 이미지를 기반으로 고품질 영상을 생성할 수 있는 강력한 오픈소스 모델로 주목받고 있습니다. 특히 WAN 2.1과 LoRA(Low-Rank Adaptation)를 결합하면 더욱 빠르고 다양한 스타일의 영상을 제작할 수 있어 크리에이터들의 새로운 창작 도구로 자리잡고 있습니다.

이 글에서는 WAN 2.1 T2V(Text-to-Video) LoRA의 주요 기능과 활용법을 알아보고, 영상 생성 속도를 높이는 최적화 방법까지 자세히 알아보겠습니다.

출처: Comfy.org

WAN 2.1 T2V LoRA란?

WAN 2.1은 텍스트나 이미지를 입력하면 고품질 영상을 생성하는 AI 모델입니다. 여기에 LoRA 기술을 결합하면 기존 모델의 성능을 유지하면서도 특정 스타일이나 기능을 추가할 수 있습니다.

LoRA(Low-Rank Adaptation)는 대규모 AI 모델을 미세 조정하는 효율적인 방법으로, 모델 전체를 재학습하지 않고도 소량의 학습 데이터로 새로운 스타일이나 기능을 추가할 수 있습니다. WAN 2.1에 LoRA를 적용하면 특정 예술 스타일이나 특수 효과를 영상에 적용하거나, 영상 제어 기능을 추가할 수 있어 매우 실용적입니다.

WAN 2.1 T2V LoRA의 주요 장점

  • 빠른 추론 속도: 전체 모델을 교체하지 않고 LoRA만 적용하므로 영상 생성 시간이 단축됩니다.
  • 다양한 스타일 적용: 반 고흐, 지브리 스튜디오, 사이버펑크 등 다양한 스타일의 영상을 손쉽게 만들 수 있습니다.
  • 적은 리소스 요구: 대용량 GPU 메모리가 없어도 사용 가능합니다.
  • 맞춤형 스타일 학습: 자신만의 스타일 LoRA를 몇 분 안에 학습시킬 수 있습니다.

WAN 2.1 T2V LoRA 사용법

WAN 2.1 T2V LoRA를 사용하기 위해서는 주로 ComfyUI를 이용하게 됩니다. 아래에 기본적인 설정 과정을 안내해 드립니다.

1. 기본 설치 및 준비

먼저 ComfyUI와 필요한 모델 파일을 설치해야 합니다:

  1. ComfyUI 설치 및 업데이트:
    • ComfyUI를 설치하거나 이미 설치되어 있다면 최신 버전으로 업데이트합니다.
    • ComfyUI Manager를 통해 ‘Update ComfyUI‘ 옵션을 선택하면 쉽게 업데이트할 수 있습니다.
  2. 필요한 모델 파일 다운로드:
    • 확산 모델: wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors 파일을 ComfyUI > models > diffusion_models 폴더에 저장합니다.
    • 텍스트 인코더: umt5_xxl_fp8_e4m3fn_scaled.safetensors 파일을 ComfyUI > models > text_encoders 폴더에 저장합니다.
    • CLIP 비전 모델: clip_vision_h.safetensors 파일을 ComfyUI > models > clip_vision 폴더에 저장합니다.
    • WAN VAE 모델: wan_2.1_vae.safetensors 파일을 ComfyUI > models > vae 폴더에 저장합니다.
  3. 필요한 커스텀 노드 설치:
    • ComfyUI Manager를 통해 ‘WAN_2_1’ 및 ‘VideoHelperSuite’ 커스텀 노드를 설치합니다.
    • 또는 커맨드 라인을 사용해 설치할 수도 있습니다:
    git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

ComfyUI Manager를 통한 업데이트 및 노드 설치 출처: stable-diffusion-art.com

2. LoRA 적용하기

사전 제작된 LoRA를 적용하는 방법은 다음과 같습니다:

  1. 워크플로우 로드:
    • WAN 2.1 T2V 워크플로우를 ComfyUI에 로드합니다.
    • LoRA 노드를 워크플로우에 추가합니다.
  2. LoRA 선택:
    • 원하는 스타일의 LoRA 파일을 선택합니다.
    • 스타일 강도를 조절할 수 있는 가중치 값을 설정합니다.
  3. 프롬프트 작성:
    • 영상의 내용을 묘사하는 프롬프트를 작성합니다.
    • 움직임 키워드(예: walking, running)를 포함시키는 것이 중요합니다.
  4. 영상 생성:
    • Queue 버튼을 클릭하여 워크플로우를 실행합니다.
    • 설정에 따라 영상 생성 시간이 달라질 수 있습니다.

속도 향상을 위한 최적화 방법

WAN 2.1 영상 생성은 처리 시간이 오래 걸릴 수 있습니다. 다음 두 가지 기술을 사용하여 속도를 약 30% 정도 향상시킬 수 있습니다:

1. Teacache 활용

Teacache는 신경망 블록이 샘플링 과정에서 항상 중요한 역할을 하는 것은 아니라는 점을 이용합니다. 확산 모델이 초기 단계에서는 이미지 윤곽을 생성하고 후반 단계에서 세부 사항을 채워 넣는다는 특성을 활용하는 기술입니다.

Teacache는 현재 입력이 캐시를 생성한 이전 입력과 유사할 때 캐시된 출력을 사용합니다. 입력이 크게 달라질 때만 캐시를 다시 계산하므로 불필요한 연산을 줄일 수 있습니다.

Teacache 원리 설명 출처: stable-diffusion-art.com

2. Sage Attention 사용

Sage Attention은 트랜스포머 어텐션 연산을 양자화하여 속도를 높이는 기술입니다. 기존의 완전 정밀도 대신 더 낮은 정밀도(8비트나 4비트)를 사용하여 어텐션 연산의 핵심 부분을 계산함으로써 정확도는 거의 손실 없이 속도를 크게 향상시킬 수 있습니다.

이를 위해서는 다음 패키지를 설치해야 합니다:

python -m pip install triton-windows
python -m pip install sageattention

나만의 스타일 LoRA 만들기

자신만의 스타일을 가진 LoRA를 만들기 위해서는 다음 과정을 따를 수 있습니다:

  1. 학습 이미지 준비:
    • 원하는 스타일의 이미지를 최소 25장 이상 준비합니다.
    • 이미지들을 폴더에 모아 zip 파일로 압축합니다.
  2. LoRA 학습 도구 사용:
    • Replicate의 ostris/wan-lora-trainer와 같은 도구를 사용할 수 있습니다.
    • 새 모델 이름을 지정하고, 준비한 zip 파일을 업로드합니다.
  3. 트리거 워드 설정:
    • 스타일을 활성화할 ‘트리거 워드’를 선택합니다.
    • 자동 캡션 기능을 활성화하여 스타일 가이드를 추가할 수 있습니다.
  4. 학습 시작:
    • 기본 설정을 유지하거나 필요에 따라 조정하고 ‘실행’을 클릭합니다.
    • 몇 분 안에 자신만의 스타일로 학습된 WAN 모델이 생성됩니다.

Control LoRA를 활용한 영상 제어

WAN 2.1에서는 스타일 LoRA 외에도 영상의 구조를 제어할 수 있는 Control LoRA도 사용할 수 있습니다. 이미지의 ControlNet과 유사하게 작동하는 방식으로, 주로 다음 두 가지 타입이 있습니다:

  1. Depth Control LoRA:
    • AI 기반 3D 장면 분석을 통해 깊이 맵을 생성합니다.
    • 건축물 시각화나 게임 장면의 3차원 공간 구조와 원근감 관계를 정확하게 구성할 수 있습니다.
  2. Tile Control LoRA:
    • 비디오 메모리 최적화 전략을 사용하여 이미지 블록 생성과 디테일 재귀 향상을 달성합니다.
    • 4K/8K 초고해상도 렌더링과 오래된 재료의 텍스처 복원을 지원합니다.

Control LoRA 사용 방법:

  1. Control LoRA 워크플로우를 ComfyUI에 로드합니다.
  2. 영상을 업로드하고 해상도와 스케일링 방법을 선택합니다.
  3. 원하는 Control LoRA 모델(Depth 또는 Tile)을 선택합니다.
  4. 제어의 시작 및 종료 위치를 조정합니다.
  5. 영상 출력의 프레임 속도를 조정합니다.

마무리

WAN 2.1 T2V LoRA는 AI 영상 생성의 새로운 지평을 열고 있습니다. 스타일 LoRA를 통해 다양한 예술적 표현이 가능하며, Control LoRA를 활용하면 영상의 구조적 측면까지 세밀하게 제어할 수 있습니다. Teacache와 Sage Attention과 같은 최적화 기술을 적용하면 생성 속도도 크게 향상시킬 수 있어, 보다 실용적인 AI 영상 제작이 가능해집니다.

직접 자신만의 스타일 LoRA를 만들어보거나 다양한 사전 제작된 LoRA를 활용해 창의적인 영상을 만들어보세요. WAN 2.1 T2V LoRA는 초보자부터 전문가까지 모두가 쉽게 접근할 수 있는 강력한 창작 도구입니다.

참고자료:


Awsom GPT에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments