Video Use는 raw footage 폴더를 AI 에이전트에게 넘기면 final.mp4를 돌려주는 오픈소스 비디오 편집 스킬이다. browser-use 팀이 공개했으며, Claude Code·Codex·Hermes·OpenClaw 등 셸 접근이 가능한 에이전트 모두에서 동작한다.
문제 인식
영상 편집은 단순 반복 작업(필러 단어 제거, 색보정, 자막 삽입)이 대부분인데도 편집자가 수동으로 처리해야 했다. LLM에게 영상을 직접 처리하게 하면 30,000 프레임 × 1,500 토큰 = 4,500만 토큰의 노이즈가 발생한다.
Video Use는 이를 12KB 텍스트 + 필요 시 PNG 몇 장으로 해결한다. browser-use가 LLM에게 스크린샷 대신 구조화된 DOM을 주는 것과 같은 원리다.
주요 기능
| 기능 | 설명 |
|---|---|
| 필러 단어 제거 | umm, uh, false start, 침묵 구간 자동 컷 |
| 색보정 | 웜 시네마틱·뉴트럴 등 ffmpeg 체인으로 전 구간 자동 적용 |
| 오디오 페이드 | 모든 컷에 30ms 페이드 자동 삽입, 팝 노이즈 제거 |
| 자막 생성 | 기본값 2단어 대문자 청크, 스타일 완전 커스텀 가능 |
| 애니메이션 오버레이 | Manim·Remotion·PIL로 생성, 병렬 서브에이전트로 실행 |
| 자기 평가 | 모든 컷 경계를 렌더링 후 재검증, 통과 전 미리보기 미제공 |
| 세션 메모리 | project.md에 편집 히스토리 저장, 다음 세션에 자동 이어받기 |
동작 원리
LLM은 영상을 직접 보지 않고 읽는다. 두 레이어로 구성된다.
레이어 1 — 오디오 트랜스크립트: ElevenLabs Scribe가 단어 단위 타임스탬프, 화자 구분, 오디오 이벤트((laughter) 등)를 takes_packed.md(~12KB)로 출력. LLM의 기본 읽기 뷰.
레이어 2 — 비주얼 컴포지트: timeline_view가 필름스트립·파형·단어 레이블 PNG를 필요할 때만 생성. 애매한 포즈나 컷 포인트 검증 시점에만 호출.
Transcribe → Pack → LLM 추론 → EDL → Render → Self-Eval
│
└─ 문제? 수정 + 재렌더(최대 3회)설치
# 에이전트에게 설치 위임 (권장)
# Claude Code 세션에서 아래 프롬프트 붙여넣기:
# "Set up https://github.com/browser-use/video-use for me."
# 수동 설치
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
cd ~/Developer/video-use
uv sync
brew install ffmpeg
cp .env.example .env # ELEVENLABS_API_KEY 설정사용 대상 및 케이스
- YouTube 크리에이터·튜토리얼 제작자: 인터뷰·토킹헤드 영상에서 필러 단어를 자동 제거하고 자막을 바로 생성하고 싶을 때
- 교육 콘텐츠 팀: 다수의 raw 영상을 일관된 색보정과 자막 스타일로 빠르게 처리해야 할 때
- 기술 발표 영상: Manim 애니메이션 오버레이를 병렬 서브에이전트로 자동 생성하고 싶을 때
라이선스
MIT
참고 자료
- browser-use/video-use — GitHub 공식 저장소
관련 문서
- agent-harness — Video Use가 따르는 에이전트 하네스 설계 원칙
- agent-skills — AI 에이전트 스킬 시스템 개요
- vibevoice — ElevenLabs 대체 오픈소스 TTS, 트랜스크립션 파이프라인과 연계 가능