첫 이미지에서는 완벽했던 캐릭터가 두 번째 생성에서는 전혀 다른 사람이 됩니다. 파란 눈과 가죽 재킷, 독특한 흉터까지 20분 동안 공들여 묘사했는데 말이죠. AI 이미지 생성의 가장 답답한 문제입니다.

AI 이미지 생성기는 각 생성마다 처음부터 시작합니다. 확산 모델은 무작위 노이즈에서 시작해 프롬프트에 맞춰 이미지를 만들기 때문에, 같은 프롬프트로도 매번 다른 결과가 나옵니다. 단일 이미지에는 장점이지만, 스토리텔링이나 브랜딩에는 치명적인 장애물이죠.
하지만 최근 1년 사이 상황이 크게 달라졌습니다. Gemini의 멀티턴 생성부터 InstantID의 90% 이상 정확도까지, 이제는 실용적인 해결책들이 존재합니다.
프롬프트 엔지니어링: 모든 기법의 기초
가장 단순하지만 가장 중요한 접근법입니다. 핵심은 재사용 가능한 캐릭터 사양서를 만드는 것입니다.
나쁜 예:
갈색 머리에 키가 큰 여성좋은 예:
어깨까지 내려오는 웨이브진 밤색 머리에 미묘한 오번 하이라이트,
운동선수 체형에 넓은 어깨를 가진 188cm,
왼쪽 눈썹 위에 초승달 모양 흉터,
빈티지 둥근 안경과 네이비 피코트 착용AI가 해석할 여지를 최소화하는 게 핵심입니다. “로만 노즈”, “픽사 애니메이션 스타일” 같은 확립된 용어(앵커 워드)를 사용하면 AI가 더 일관되게 해석합니다.
첫 성공적인 생성을 분석해서 효과적이었던 요소들을 다음 프롬프트에도 그대로 포함하세요. “부드럽게 확산된 조명, 얕은 피사계 심도, 차분한 색상 팔레트”처럼요.
물론 완벽한 프롬프트로도 얼굴 구조나 세밀한 디테일까지 완전히 제어하기는 어렵습니다. 그래서 참조 기반 기법이 필요합니다.
Gemini Nano Banana: 멀티턴 생성의 혁신
Google의 Gemini 2.5 Flash Image(별칭 Nano Banana)는 2025년 10월 공식 출시 이후 가장 혁신적인 접근법을 제시합니다.

작동 방식:
- 아카이브 이미지에서 캐릭터 추출 → 정면/후면 뷰 캐릭터 시트 생성
- 이 시트를 참조해 첫 번째 씬 생성 (“산 위 절벽에 서 있는 로봇”)
- 캐릭터 시트 + 첫 씬을 참조해 두 번째 씬 생성 (“계곡으로 내려간 로봇”)
- 연속 참조로 일관성 유지하며 새로운 씬 계속 생성
Python 예시:
from google import genai
client = genai.Client()
# 캐릭터 시트와 이전 씬을 함께 참조
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
character_sheet_image,
previous_scene_image,
"로봇이 숲을 통과해 빈터로 나옵니다. 로봇은 정면에서 보이고..."
]
)Gemini의 공간 이해력 덕분에 “로봇을 왼쪽으로 이동시키고 배낭을 추가하라” 같은 자연어로 복잡한 3D 조작이 가능합니다. 일러스트 북, 스토리보드, 게임 컨셉 아트처럼 연속된 씬이 필요한 프로젝트에 특히 강력합니다.
InstantID와 PuLID: 오픈소스 최강 정확도
Stable Diffusion과 Flux 생태계에서는 두 기법이 얼굴 일관성의 표준입니다.
정확도 비교:
- InstantID: 88-92% (균형잡힌 접근, 실시간 적용 가능)
- PuLID: 94-96% (최고 정밀도, 프로페셔널 작업용)
두 기법 모두 참조 이미지에서 신원 정보를 추출해 새로운 생성을 조건화합니다. ComfyUI에서 노드 기반으로 사용하며, Flux 모델과 결합하면 특히 강력합니다.

언제 사용하나:
- InstantID: 빠른 프로토타입, 다양한 스타일 실험
- PuLID: 브랜드 캐릭터, 시리즈물, 5-8% 정확도 차이가 중요한 경우
단점은 학습 곡선입니다. ComfyUI 워크플로우 구축에 시간이 걸리지만, 최대 제어가 필요한 프로페셔널 작업에는 투자할 가치가 있습니다.
Midjourney: 가장 쉬운 시작
가장 접근하기 쉬운 방법입니다. 80-90% 수준의 일관성으로 많은 크리에이터들의 선택이 되었죠.
사용법:
"전사가 절벽에 서 있다 --cref [이미지 URL] --cw 100"--cw 100: 얼굴, 머리카락, 의상 모두 보존--cw 0: 얼굴만 유지, 의상은 자유롭게
Midjourney 자체에서 생성한 정면/3/4 각도 샷을 참조로 사용하면 가장 좋은 결과가 나옵니다. 실제 사진은 왜곡될 수 있습니다.
복잡한 포즈나 프레임별 정확한 일치가 필요하면 다른 기법이 필요하지만, 소셜 미디어 콘텐츠나 일러스트 북처럼 약간의 변화가 허용되는 프로젝트에는 이상적입니다.
프로젝트에 맞는 선택
| 프로젝트 유형 | 추천 기법 | 이유 |
|---|---|---|
| 소셜 미디어 | Midjourney –cref | 빠르고 쉬움, 약간의 변화 OK |
| 스토리텔링 | Gemini Nano Banana | 연속 씬 자동 일관성 |
| 게임 에셋 | InstantID/PuLID | 대규모 변형, 높은 정확도 |
| 브랜딩 | PuLID + LoRA | 절대적 일관성 필요 |
가장 좋은 결과는 여러 접근법을 조합할 때 나옵니다. 강력한 프롬프트 + 참조 이미지 + 일관된 스타일을 함께 사용하면 각 기법이 서로를 보완합니다.
캐릭터 일관성 문제는 이제 ‘불가능’이 아니라 ‘어떤 도구를 선택할까’의 문제가 되었습니다.
참고자료:
- How to Create Consistent Characters With AI Image Generators: A Practical Guide – Humai Blog
- Generating Consistent Imagery with Gemini – Towards Data Science
- Introducing Gemini 2.5 Flash Image – Google Developers Blog
- AI Face Swap Showdown: PuLID vs InstantID vs FaceID – MyAIForce
- InstantID vs PuLID vs FaceID Face Swap Comparison 2025 – Apatero

답글 남기기