AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Video Use – AI 에이전트로 영상을 편집하는 오픈소스 도구

Video Use는 raw footage 폴더를 AI 에이전트에게 넘기면 final.mp4를 돌려주는 오픈소스 비디오 편집 스킬이다. browser-use 팀이 공개했으며, Claude Code·Codex·Hermes·OpenClaw 등 셸 접근이 가능한 에이전트 모두에서 동작한다.

문제 인식

영상 편집은 단순 반복 작업(필러 단어 제거, 색보정, 자막 삽입)이 대부분인데도 편집자가 수동으로 처리해야 했다. LLM에게 영상을 직접 처리하게 하면 30,000 프레임 × 1,500 토큰 = 4,500만 토큰의 노이즈가 발생한다.

Video Use는 이를 12KB 텍스트 + 필요 시 PNG 몇 장으로 해결한다. browser-use가 LLM에게 스크린샷 대신 구조화된 DOM을 주는 것과 같은 원리다.

주요 기능

기능설명
필러 단어 제거umm, uh, false start, 침묵 구간 자동 컷
색보정웜 시네마틱·뉴트럴 등 ffmpeg 체인으로 전 구간 자동 적용
오디오 페이드모든 컷에 30ms 페이드 자동 삽입, 팝 노이즈 제거
자막 생성기본값 2단어 대문자 청크, 스타일 완전 커스텀 가능
애니메이션 오버레이Manim·Remotion·PIL로 생성, 병렬 서브에이전트로 실행
자기 평가모든 컷 경계를 렌더링 후 재검증, 통과 전 미리보기 미제공
세션 메모리project.md에 편집 히스토리 저장, 다음 세션에 자동 이어받기

동작 원리

LLM은 영상을 직접 보지 않고 읽는다. 두 레이어로 구성된다.

레이어 1 — 오디오 트랜스크립트: ElevenLabs Scribe가 단어 단위 타임스탬프, 화자 구분, 오디오 이벤트((laughter) 등)를 takes_packed.md(~12KB)로 출력. LLM의 기본 읽기 뷰.

레이어 2 — 비주얼 컴포지트: timeline_view가 필름스트립·파형·단어 레이블 PNG를 필요할 때만 생성. 애매한 포즈나 컷 포인트 검증 시점에만 호출.

Transcribe → Pack → LLM 추론 → EDL → Render → Self-Eval
                                                    │
                                                    └─ 문제? 수정 + 재렌더(최대 3회)

설치

# 에이전트에게 설치 위임 (권장)
# Claude Code 세션에서 아래 프롬프트 붙여넣기:
# "Set up https://github.com/browser-use/video-use for me."

# 수동 설치
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
cd ~/Developer/video-use
uv sync
brew install ffmpeg
cp .env.example .env  # ELEVENLABS_API_KEY 설정

사용 대상 및 케이스

  • YouTube 크리에이터·튜토리얼 제작자: 인터뷰·토킹헤드 영상에서 필러 단어를 자동 제거하고 자막을 바로 생성하고 싶을 때
  • 교육 콘텐츠 팀: 다수의 raw 영상을 일관된 색보정과 자막 스타일로 빠르게 처리해야 할 때
  • 기술 발표 영상: Manim 애니메이션 오버레이를 병렬 서브에이전트로 자동 생성하고 싶을 때

라이선스

MIT

참고 자료

관련 문서

  • agent-harness — Video Use가 따르는 에이전트 하네스 설계 원칙
  • agent-skills — AI 에이전트 스킬 시스템 개요
  • vibevoice — ElevenLabs 대체 오픈소스 TTS, 트랜스크립션 파이프라인과 연계 가능


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)