AI 이미지 생성에서 가장 까다로운 문제가 뭘까요? 바로 캐릭터 일관성입니다. 같은 사람을 다른 각도에서 찍으면 얼굴이 미묘하게 달라지고, 옷 색깔이 바뀌고, 분위기가 엉망이 되죠. 그래서 대부분 이미지를 하나씩 생성하고, 마음에 안 들면 다시 뽑고… 이 과정을 반복합니다.
그런데 필름 사진 시절의 오래된 작업 방식에서 힌트를 얻은 새로운 기법이 등장했습니다. 바로 “Contact Sheet Prompting”입니다.

Willie Falloon이 공개한 이 기법은 구글의 Gemini 3 Pro Image 모델(일명 Nano Banana Pro)을 활용해 한 번의 프롬프트로 6개의 일관된 키프레임을 동시에 생성합니다. 원조는 TechHalla가 개발한 “Grid to Video Workflow”인데, Willie가 이를 패션 촬영 스타일로 재해석했죠. Gemini의 추론 능력을 창의적으로 활용한 사례입니다.
출처: Contact Sheet Prompting – Willie Falloon
콘택트 시트가 뭔데요?
필름 카메라로 36장을 찍으면 필름 한 롤이 나옵니다. 예전 사진관에서는 이걸 전부 인화하면 비용이 많이 드니까, 필름을 인화지에 밀착(contact)시켜서 작은 썸네일들을 한 장에 쭉 인쇄했어요. 마치 엑셀 시트처럼요.
사진작가는 이 “콘택트 시트(밀착 인화)”를 보면서 “아, 3번 사진 괜찮네” 하고 골라서 그것만 크게 확대 인화했습니다. 시간과 돈을 아끼는 방법이었죠.
이 아날로그 방식을 AI에 그대로 적용한 겁니다. AI한테도 “한 번에 여러 개 작게 그려봐, 그 중에 마음에 드는 거 골라서 크게 다시 그릴게” 하는 거예요.
TechHalla의 원조 워크플로우
TechHalla는 Higgsfield AI 플랫폼에서 이 아이디어를 처음 구현했습니다. Nano Banana Pro로 시네마틱 그리드를 생성하고, 원하는 스틸을 추출한 뒤, Kling 같은 I2V(Image to Video) 모델로 애니메이션을 만드는 전체 파이프라인을 공개했죠.
핵심은 이겁니다. Gemini 3 Pro는 개별 이미지를 잘 만듭니다. 하지만 한 번에 9개를 만들면서 캐릭터와 스토리 일관성을 유지하는 건 전혀 다른 차원의 문제입니다. 여기서 Gemini의 추론 능력이 빛을 발합니다.
그리드 생성 프롬프트에 “이 캐릭터의 모든 디테일을 분석하고, 6개 프레임에서 100% 동일하게 유지하라”고 지시하면, Gemini는 내부적으로 캐릭터 특징을 파악하고 각 프레임에 일관되게 적용합니다. 단순히 이미지만 만드는 게 아니라, 캐릭터의 정체성을 “이해”하는 거죠.
Willie의 패션 촬영 응용
Willie Falloon은 이 기법을 패션 촬영에 맞게 재구성했습니다. 그의 워크플로우는 이렇습니다:
- 초기 모델 설정: 먼저 기본이 되는 모델 이미지 하나를 생성합니다. 옷, 조명, 분위기를 모두 정의하죠.
- 콘택트 시트 생성: 이 이미지를 기준으로 6개의 다른 각도 샷을 한 번에 생성합니다. 프롬프트가 핵심인데, 이렇게 시작합니다:
“입력 이미지를 분석하고 모든 패션 디테일을 조용히 목록화하세요: 피사체, 정확한 옷 조각, 소재, 색상, 질감, 액세서리, 헤어, 메이크업, 신체 비율, 환경, 세트 구조, 빛의 방향, 그림자 품질…”
“모든 프레임에서 옷, 스타일링, 헤어, 메이크업, 조명, 환경, 색감은 100% 동일하게 유지되어야 합니다.”
그리고 6개 프레임 각각의 카메라 위치를 구체적으로 지정합니다. 하이 앵글, 로우 앵글, 클로즈업, 디테일 샷 등 다양한 구도를 요구하죠.
- 스틸 추출: 생성된 그리드에서 원하는 프레임을 “row 1 column 2″처럼 지정해서 개별 이미지로 추출합니다.
- I2V 애니메이션: Kling 2.6으로 이미지를 비디오로 변환하고, easypeasyease로 ease curve 애니메이션을 적용합니다.

프롬프트를 보면 거의 전문 사진작가 수준입니다. “로우 앵글에서 비스듬하게, 실루엣을 길게 보이게, 신발을 강조”처럼 구체적으로 지시하죠. 이게 가능한 이유는 Gemini가 단순히 키워드를 조합하는 게 아니라, 사진 구도의 의미를 이해하기 때문입니다.
왜 Gemini만 되는 걸까요?
Willie는 명확하게 말합니다. “NBP(Nano Banana Pro)는 현재 이걸 할 수 있는 유일한 모델입니다.”
다른 이미지 모델들도 개별 이미지는 훌륭하게 만듭니다. 하지만 한 번에 여러 이미지를 생성하면서 캐릭터 일관성을 유지하려면 추론 능력이 필요합니다. Gemini 3는 이미지를 생성하기 전에 프롬프트를 분석하고, 캐릭터의 핵심 특징을 추출하고, 각 프레임에서 이를 일관되게 적용하는 “사고 과정”을 거칩니다.
직접 해보려면
Willie는 몇 가지 실용적인 팁을 공유합니다:
- 콘택트 시트는 2K나 4K 해상도로 생성하세요. 나중에 스틸을 추출할 때 디테일이 살아납니다.
- 프롬프트 하나에 6개 앵글이 담기니 각 프레임을 꼼꼼히 설계하세요.
- I2V 단계에서는 “카메라가 매우 천천히 부드럽게 움직입니다. 피사체는 거의 움직이지 않습니다”처럼 미묘한 움직임을 지시하세요.
- 클립을 짧게 자르고 ease curve를 적용하면 AI 특유의 이상한 부분을 숨길 수 있습니다.
이 기법은 현재 Gemini 3 Pro에 특화되어 있지만, AI 이미지 생성의 새로운 가능성을 보여줍니다. 단순히 “예쁜 이미지 하나”를 만드는 게 아니라, 일관된 캐릭터로 이야기를 풀어가는 워크플로우를 구축할 수 있게 된 거죠. 패션 촬영, 스토리보드 제작, 컨셉 아트 등 다양한 분야에서 활용할 수 있을 것 같습니다.
참고자료:
- Grid to Video Workflow on Higgsfield – TechHalla

답글 남기기