AI가 이미지 속 글자를 못 읽던 이유, GPT Image 2가 그걸 바꾼 방법

AI 이미지 생성 모델은 오랫동안 글자 앞에서 무너졌습니다. 멕시칸 레스토랑 메뉴를 만들면 “enchilada”가 “enchuita”로, “burrito”가 “burrto”로 바뀌었죠. 정확한 글자보다 그럴듯해 보이는 픽셀 패턴을 학습했기 때문입니다. GPT Image 2는 그 구조 자체를 바꿨습니다.

사진 출처: OpenAI

OpenAI가 2026년 4월 21일 공개한 ChatGPT Images 2.0은 새 모델 GPT Image 2로 구동됩니다. 출시 당일 Image Arena 리더보드 1위에 오른 것도 화제였지만, 핵심은 따로 있습니다. 텍스트 렌더링의 구조적 한계를 해결한 아키텍처 전환, 그리고 그 위에 쌓인 추론(reasoning) 레이어입니다.

출처: Introducing ChatGPT Images 2.0 – OpenAI

왜 이미지 모델은 글자를 못 썼는가

기존 이미지 생성 모델의 주류는 디퓨전(diffusion) 방식이었습니다. 노이즈에서 이미지를 복원하는 방식이죠. 이 구조에서 글자는 전체 픽셀 중 극히 일부에 불과합니다. 모델은 “이 픽셀 배열이 텍스트처럼 보인다”는 패턴은 학습하지만, 실제로 어떤 글자인지는 제대로 이해하지 못한 채 비슷한 형태를 흉내 냈습니다.

GPT Image 2는 이 접근 자체를 버렸습니다. DALL-E 3 같은 디퓨전 모델과 달리, 이미지를 노이즈에서 복원하지 않습니다. 텍스트를 생성하듯 이미지를 토큰 단위로 순차적으로 만들어냅니다. 언어 모델과 이미지 생성이 같은 구조 안에 통합된 셈입니다. 이 구조에서 글자는 더 이상 무작위 픽셀 패턴이 아니라, 모델이 이해하고 계획할 수 있는 요소가 됩니다.

OpenAI는 텍스트 정확도가 99%를 넘는다고 밝혔습니다. 한국어, 일본어, 중국어, 힌디어, 벵골어 같은 비라틴 계열 문자도 포함해서입니다. 인포그래픽, 슬라이드, UI 목업, 메뉴판처럼 텍스트가 핵심인 결과물을 이제 이미지 생성 단계에서 완결할 수 있습니다.

생성 전에 먼저 생각하는 Thinking 모드

아키텍처 전환 위에 추론 레이어가 올라갔습니다. ChatGPT의 ‘Thinking 모드’를 선택하면 모델은 이미지를 즉시 생성하지 않습니다. 먼저 복잡한 프롬프트를 세부 과제로 분해하고, 공간 배치와 레이아웃을 계획하고, 필요하면 웹 검색으로 최신 시각 참고 자료를 확인한 뒤 생성에 들어갑니다.

이 과정이 만화나 연속 콘텐츠에서 특히 의미가 있습니다. 기존 모델은 같은 캐릭터를 여러 장면에서 그릴 때 외모, 의상, 스타일이 일관되지 않았습니다. Thinking 모드는 캐릭터 특징을 장면 간에 추적하며 최대 8장(API 기준 10장)의 이미지를 일관성 있게 한 번에 생성합니다. 페이지 단위의 만화나 SNS 시리즈물이 가능해지는 이유입니다.

Thinking 모드는 ChatGPT Plus, Pro, Business, Enterprise 구독자에게 제공됩니다. 무료 플랜은 추론 없이 빠르게 생성하는 Instant 모드만 사용할 수 있습니다.

Instant vs Thinking, 어떤 상황에 무엇을 쓸까

두 모드는 명확하게 다른 용도를 위해 설계됐습니다.

Instant 모드는 빠릅니다. 웹 검색도, 자기 검증도 없습니다. 단순한 제품 목업, 소셜 배너, 대량 배리에이션 작업처럼 속도와 비용이 중요한 상황에 적합합니다. 텍스트가 핵심이 아니거나, 레이아웃이 단순한 경우입니다.

Thinking 모드는 계획이 필요한 작업에 씁니다. 인포그래픽, 다국어 텍스트가 포함된 디자인, 여러 장면에 걸친 캐릭터 일관성, 복잡한 공간 배치처럼 모델이 “먼저 이해하고” 생성해야 하는 경우입니다. 시간이 더 걸리고 비용도 높지만, 반복 생성으로 낭비하는 시간을 줄여줍니다.

가격 구조에서 생긴 의외의 함정

API에서는 gpt-image-2 모델명으로 사용할 수 있습니다. 가격은 토큰 기반으로, 이미지 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러입니다.

이미지별 단가를 보면 직관과 다른 패턴이 나옵니다. 1024×1024 정방형 고품질 이미지는 장당 약 0.211달러로, 이전 모델(GPT Image 1.5)의 0.133달러보다 59% 비쌉니다. 반면 1024×1536 세로형 고품질은 0.165달러로, 이전 모델(0.200달러)보다 오히려 18% 저렴합니다.

정방형 썸네일이나 배너를 대량으로 생성하는 팀이라면 비용이 유의미하게 오릅니다. 반대로 세로형 콘텐츠(SNS 스토리, 모바일 화면, 세로 인쇄물)가 주력인 작업이라면 오히려 이전보다 유리합니다. 어떤 비율로 작업하느냐에 따라 같은 모델이 더 비쌀 수도, 더 쌀 수도 있습니다.

이미지를 ‘언어’로 다루기 시작한 의미

OpenAI는 이번 발표에서 “이미지는 장식이 아니라 언어”라고 표현했습니다. 이 말은 단순한 마케팅 문구가 아닙니다. 아키텍처 수준에서도 그 방향을 반영하고 있습니다. 언어 모델이 문장을 이해하고 계획한 뒤 쓰듯, 이미지 모델도 이제 같은 방식으로 이미지를 만들기 시작했습니다.

텍스트 렌더링의 해결은 그 변화가 가장 가시적으로 드러나는 지점입니다. 기능이 개선된 게 아니라, 모델이 이미지를 다루는 방식이 달라진 결과입니다. 구체적인 성능 비교, 추론 토큰 비용 계산, 편집(inpainting) 기능 등 더 상세한 내용은 원문에서 확인할 수 있습니다.

참고자료:

ChatGPT Images 2.0 is a breakthrough – The Decoder
ChatGPT’s new Images 2.0 model is surprisingly good at generating text – TechCrunch
ChatGPT Images 2.0 – Thinking Mode and 2K Output – Awesome Agents

Like?

AI Sparkup

AI가 이미지 속 글자를 못 읽던 이유, GPT Image 2가 그걸 바꾼 방법

왜 이미지 모델은 글자를 못 썼는가

생성 전에 먼저 생각하는 Thinking 모드

Instant vs Thinking, 어떤 상황에 무엇을 쓸까

가격 구조에서 생긴 의외의 함정

이미지를 ‘언어’로 다루기 시작한 의미

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI가 짠 코드, “작동한다”는 이제 완료의 20%일 뿐이다

벡터DB 없이 numpy 한 줄로 백만 건 검색한 결과

일주일 문자만 나눴는데, AI가 사람보다 신뢰를 더 얻었다

에이전트 하네스 논쟁, 덜어낼수록 좋아지는 이유