GPT Image 2는 OpenAI가 2026년 4월 22일 공개한 이미지 생성 모델로, 제품명은 ChatGPT Images 2.0이다. GPT Image 1.5를 대체하며, O 시리즈 추론 역량을 이미지 생성에 결합해 텍스트 렌더링 정확도를 업계 최고 수준으로 끌어올렸다. OpenAI는 동시에 DALL-E API를 2026년 5월 12일 종료한다고 발표했으며, GPT Image 2가 그 후속이다.
등장 배경
기존 이미지 생성 모델의 가장 큰 약점은 텍스트 렌더링이었다. DALL-E 3조차 간단한 단어를 이미지 속에 정확하게 그리지 못했고, 다국어 지원은 더욱 취약했다. GPT Image 2는 이 격차를 겨냥해 99%+의 텍스트 정확도를 목표로 설계되었으며, 영어뿐 아니라 한·중·일 CJK 문자, 힌디어, 벵골어까지 지원한다.
내부적으로 “마스킹테이프-알파(maskingtape-alpha)” 등의 코드명으로 LM Arena에서 A/B 테스트를 거쳤으며, 테스트 참여자들은 “경쟁 모델이 DALL-E처럼 보인다”고 평했다.
주요 스펙
| 항목 | 세부 사항 |
|---|---|
| 최대 해상도 | 2048px (2K) |
| 화면 비율 | 3:1 ~ 1:3 (자유) |
| 배치 생성 | 최대 8장 |
| 실행 모드 | Instant, Thinking |
| 지식 컷오프 | 2025년 12월 |
| 출시일 | 2026년 4월 22일 |
가격 (API)
| 항목 | 가격 |
|---|---|
| 이미지 입력 | $8.00/M 토큰 |
| 이미지 출력 | $30.00/M 토큰 |
| 텍스트 입력 | $5.00/M 토큰 |
| 1024×1024 고품질 | $0.211/장 |
| 1024×1536 고품질 | $0.165/장 |
핵심 기능
Thinking 모드
이미지를 즉시 생성하는 대신, 웹을 검색하고 구도를 계획한 뒤 생성한다. 같은 캐릭터를 여러 장면에 걸쳐 일관된 얼굴·복장으로 그리는 캐릭터 일관성 기능이 핵심이다. 스토리보드 3×3 그리드처럼 멀티프레임 작업에 적합하다. Plus, Pro, Business 구독자 전용.
웹 검색 기반 생성
“도쿄 야마노테선 지도에 빨간색으로 선을 표시해 줘”처럼 레퍼런스가 필요한 프롬프트에서 실제 웹 정보를 참조해 생성한다.
텍스트 렌더링
99%+ 정확도로 간판, 메뉴, 인포그래픽, 슬라이드 텍스트를 정확히 렌더링한다. CJK(한·중·일) 문자가 특히 강화되었다.
경쟁 모델 비교
| 모델 | 텍스트 정확도 | 최대 해상도 | 배치 | 스트리밍 |
|---|---|---|---|---|
| GPT Image 2 | 99%+ | 2048px | 8 | ❌ |
| GPT Image 1.5 | ~90–95% | 1536px | 4 | ❌ |
| Midjourney v7 | ~85% | 2048px | 4 | ❌ |
| FLUX.2 Pro | ~88% | 2048px | 1 | ❌ |
이용 방법
2026년 4월 22일부터 모든 ChatGPT 사용자(무료 포함) 및 Codex 사용자가 이용할 수 있다. Thinking 모드는 Plus, Pro, Business 전용. API는 토큰 기반으로 과금된다.
관련 문서
- gpt-54 — OpenAI 텍스트 생성 모델