Think-Then-Generate(T2G)는 텍스트-이미지 확산 모델에서 LLM 기반 텍스트 인코더를 단순 문장 임베더로 쓰지 않고, 먼저 프롬프트를 추론·재작성하게 한 뒤 그 내부 상태를 이미지 생성 조건으로 사용하는 연구다.
문제의식
최신 이미지 생성 모델은 긴 프롬프트를 잘 따르지만, 복잡한 상식·공간 관계·암시적 조건이 들어가면 여전히 “텍스트를 픽셀로 매핑”하는 수준에 머무를 때가 많다. LLM 텍스트 인코더를 붙여도, 그 LLM의 추론 능력을 제대로 쓰지 않으면 단순히 더 큰 텍스트 인코더가 될 뿐이다.
T2G는 생성 전에 모델이 먼저 생각하도록 만든다.
사용자 프롬프트
-> LLM 인코더가 추론하고 프롬프트를 재작성
-> 재작성 상태를 diffusion conditioning으로 사용
-> 확산 백본이 의미적으로 맞는 이미지를 생성학습 방식
논문은 두 단계를 제안한다.
- LLM 인코더에 think-then-rewrite 패턴을 가벼운 지도 파인튜닝으로 활성화한다.
- Dual-GRPO로 LLM 인코더와 확산 백본을 함께 최적화한다.
LLM 인코더는 이미지 기반 보상으로 세계 지식과 시각적 세부사항을 더 잘 추론하도록 강화되고, 확산 백본은 의미 일치와 시각적 일관성을 높이는 방향으로 조정된다.
의미
T2G는 프롬프트 엔지니어링을 모델 외부에서 사람이 하는 대신, 텍스트 인코더 내부에 일부 흡수하려는 접근이다. 복잡한 장면 구성, 상식 기반 이미지 생성, 편집 작업에서 단순 키워드 매칭보다 나은 정렬을 기대할 수 있다.
대신 추론 단계가 추가되므로 지연 시간과 비용이 늘어날 수 있다. 실시간 생성이나 대량 배치에서는 추론 품질 향상과 처리량 사이의 균형을 봐야 한다.
관련 문서
- gpt-image-2 — OpenAI 이미지 생성 모델
- hidream-o1-image — 추론 기반 프롬프트 에이전트를 쓰는 오픈 이미지 모델
- w2sd — 약한/강한 모델 차이를 활용한 확산 품질 개선
- synthid — AI 생성 이미지 워터마킹 기술
참고 자료
- Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders — arXiv (2026-01-15)
- SJTU-DENG-Lab/Think-Then-Generate — GitHub 공식 저장소