2023년에는 영상 자막을 만들려면 GitHub에서 WebUI 프로젝트를 찾고, Google Colab을 설정하고, 환경을 구성하는 5단계 절차가 필요했다. 2026년에는 OpenAI Codex에 프롬프트 한 줄을 입력하면 whisper-cpp 기반 자막 생성 웹앱이 통째로 만들어진다.
whisper.cpp를 쓰는 이유
whisper.cpp는 OpenAI Whisper를 C/C++로 경량 구현한 버전이다.
- 인터넷 연결 없이 로컬에서 실행
- M1~M4 Mac 내장 GPU 활용으로 빠른 속도
- 모델 크기 선택 가능 (small 75MB ~ large 2.9GB)
- Python 환경이나 Colab 불필요
Codex로 웹앱 만들기
Codex에 아래 프롬프트를 입력한다:
https://github.com/ggml-org/whisper.cpp사용해서, 회의나 강의 영상을 올리면 자막 파일(SRT)로 바꿔주는 간단한 웹 화면을 만들어줘. 처음 보는 사람도 바로 이해할 수 있게 파일 업로드, 언어 선택, 자막 생성 버튼이 잘 보이도록 깔끔하게 구성해줘.
Codex가 whisper.cpp와 연동되는 자막 생성 웹앱을 완성하고, SRT 파일 다운로드 기능까지 포함해 결과물을 생성한다.
2023년 vs 2026년 비교
| 2023년 (Colab 방식) | 2026년 (Codex 방식) | |
|---|---|---|
| 진입장벽 | Colab 환경 이해 필요 | 프롬프트 한 줄 |
| 단계 수 | 5단계 (프로젝트 탐색 → Colab 복사 → GPU 설정 → 실행 → 다운로드) | 프롬프트 입력 → 완성 |
| 코딩 필요 여부 | 불필요하지만 Colab 조작 이해 필요 | 불필요 |
| 실행 환경 | Google 서버 (Colab) | 내 PC (로컬) |
| 인터넷 의존 | 필요 | 불필요 |
속도 가이드 (M1 Pro MacBook 기준)
| 모델 크기 | 10분 음성 처리 시간 |
|---|---|
| small (75MB) | ~3분 |
| large (2.9GB) | ~7분 |
최근 Mac(M1~M4)이라면 large 모델도 실용적인 속도로 돌아간다.
인사이트
오픈소스 AI 모델은 오래전부터 존재했다. Whisper는 2022년에 공개됐다. 그러나 “무료로 공개”와 “실제 쓸 수 있음”은 달랐다. 비개발자에게 설치와 실행은 높은 장벽이었다. 코딩 에이전트가 이 장벽을 빠르게 허물고 있다.
관련 문서
- whisper-cpp — whisper.cpp 프로젝트 소개 및 기본 사용법
- awesome-codex-subagents — Codex용 전문 서브에이전트 컬렉션
참고 자료
- 무료 영상 자막 생성기 만들기 (Codex + whisper.cpp) — secondbrush (2026-04-22)