GPT Image 2 – 99% 텍스트 정확도와 2K 해상도를 갖춘 OpenAI 이미지 생성 모델

등장 배경
주요 스펙
가격 (API)
핵심 기능
Thinking 모드
웹 검색 기반 생성
텍스트 렌더링
경쟁 모델 비교
이용 방법
관련 문서

GPT Image 2는 OpenAI가 2026년 4월 22일 공개한 이미지 생성 모델로, 제품명은 ChatGPT Images 2.0이다. GPT Image 1.5를 대체하며, O 시리즈 추론 역량을 이미지 생성에 결합해 텍스트 렌더링 정확도를 업계 최고 수준으로 끌어올렸다. OpenAI는 동시에 DALL-E API를 2026년 5월 12일 종료한다고 발표했으며, GPT Image 2가 그 후속이다.

등장 배경

기존 이미지 생성 모델의 가장 큰 약점은 텍스트 렌더링이었다. DALL-E 3조차 간단한 단어를 이미지 속에 정확하게 그리지 못했고, 다국어 지원은 더욱 취약했다. GPT Image 2는 이 격차를 겨냥해 99%+의 텍스트 정확도를 목표로 설계되었으며, 영어뿐 아니라 한·중·일 CJK 문자, 힌디어, 벵골어까지 지원한다.

내부적으로 “마스킹테이프-알파(maskingtape-alpha)” 등의 코드명으로 LM Arena에서 A/B 테스트를 거쳤으며, 테스트 참여자들은 “경쟁 모델이 DALL-E처럼 보인다”고 평했다.

주요 스펙

항목	세부 사항
최대 해상도	2048px (2K)
화면 비율	3:1 ~ 1:3 (자유)
배치 생성	최대 8장
실행 모드	Instant, Thinking
지식 컷오프	2025년 12월
출시일	2026년 4월 22일

가격 (API)

항목	가격
이미지 입력	$8.00/M 토큰
이미지 출력	$30.00/M 토큰
텍스트 입력	$5.00/M 토큰
1024×1024 고품질	$0.211/장
1024×1536 고품질	$0.165/장

핵심 기능

Thinking 모드

이미지를 즉시 생성하는 대신, 웹을 검색하고 구도를 계획한 뒤 생성한다. 같은 캐릭터를 여러 장면에 걸쳐 일관된 얼굴·복장으로 그리는 캐릭터 일관성 기능이 핵심이다. 스토리보드 3×3 그리드처럼 멀티프레임 작업에 적합하다. Plus, Pro, Business 구독자 전용.

웹 검색 기반 생성

“도쿄 야마노테선 지도에 빨간색으로 선을 표시해 줘”처럼 레퍼런스가 필요한 프롬프트에서 실제 웹 정보를 참조해 생성한다.

텍스트 렌더링

99%+ 정확도로 간판, 메뉴, 인포그래픽, 슬라이드 텍스트를 정확히 렌더링한다. CJK(한·중·일) 문자가 특히 강화되었다.

경쟁 모델 비교

모델	텍스트 정확도	최대 해상도	배치	스트리밍
GPT Image 2	99%+	2048px	8	❌
GPT Image 1.5	~90–95%	1536px	4	❌
Midjourney v7	~85%	2048px	4	❌
FLUX.2 Pro	~88%	2048px	1	❌

이용 방법

2026년 4월 22일부터 모든 ChatGPT 사용자(무료 포함) 및 Codex 사용자가 이용할 수 있다. Thinking 모드는 Plus, Pro, Business 전용. API는 토큰 기반으로 과금된다.

AI Sparkup