HiDream-O1-Image – 픽셀·텍스트를 단일 토큰 공간에서 처리하는 오픈 이미지 생성 모델

무엇이 다른가
주요 기능
모델 구성
설치와 실행
어디에 쓰면 좋은가
한계와 주의점
라이선스
관련 문서
참고 자료

HiDream-O1-Image는 HiDream.ai가 공개한 8B 이미지 생성 파운데이션 모델이다. 핵심은 픽셀 수준 통합 트랜스포머(Pixel-level Unified Transformer, UiT)로, 외부 VAE나 분리된 텍스트 인코더 없이 원시 픽셀, 텍스트, 편집·개인화 조건을 하나의 공유 토큰 공간에서 처리한다. 텍스트→이미지, 이미지 편집, 주체 기반 개인화, 긴 텍스트 렌더링을 최대 2048×2048 해상도까지 지원한다.

출처: HiDream-ai/HiDream-O1-Image GitHub 저장소

무엇이 다른가

기존 확산 이미지 모델은 보통 VAE로 픽셀을 잠재 공간으로 압축하고, 별도 텍스트 인코더로 프롬프트를 처리한 뒤, U-Net 또는 DiT 계열 생성기에서 둘을 결합한다. HiDream-O1-Image는 이 구성을 더 통합적으로 만든다. 원시 픽셀과 텍스트 조건을 같은 토큰 공간에 놓기 때문에 텍스트 렌더링, 레이아웃 제어, 이미지 편집, 동일 주체 유지 같은 작업을 하나의 모델 계열에서 다룰 수 있다.

특히 이미지 안에 긴 문구를 넣거나, 다국어 텍스트를 여러 영역에 배치하거나, 참조 이미지의 인물·제품 정체성을 새 장면으로 옮기는 작업을 겨냥한다.

주요 기능

픽셀 수준 통합 트랜스포머: VAE와 분리된 텍스트 인코더 없이 원시 픽셀·텍스트·조건을 통합 처리
8B 오픈 모델: 전체 모델과 증류된 Dev 변형을 공개
최대 2048×2048 생성: 고해상도 텍스트→이미지 생성 지원
긴 텍스트 렌더링: 영어·중국어 중심 긴 문구 벤치마크에서 강한 성능을 보고
이미지 편집: 지시문 기반 편집을 지원하며, 저장소는 편집 작업에 full 모델 사용을 권장
주체 기반 개인화: 여러 참조 이미지를 받아 인물·제품 정체성을 보존한 새 장면 생성
레이아웃·스켈레톤 조건: 2026년 5월 13일 업데이트로 개인화 파이프라인에 레이아웃과 스켈레톤 조건이 추가됨
Reasoning-Driven Prompt Agent: Gemma 4 31B 또는 OpenAI 호환 API로 프롬프트를 추론 기반으로 재작성

출처: HiDream-ai/HiDream-O1-Image GitHub 저장소

모델 구성

모델	용도	기본 추론 스텝
HiDream-O1-Image	품질 우선 full 모델	50
HiDream-O1-Image-Dev	빠른 개발·실험용 증류 모델	28
Prompt Agent	프롬프트 추론·재작성	별도

Prompt Agent는 사용자의 짧은 지시를 그대로 생성기에 넣지 않고, 장면 구조, 물리적 관계, 주체 속성, 텍스트 배치 요구사항을 먼저 풀어 쓴 뒤 생성 프롬프트로 전달한다. 복잡한 포스터, 스토리보드, 캐릭터 일관성 작업에서 유용하다.

설치와 실행

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

저장소는 flash-attn 설치를 권장한다. 설치하지 못하는 환경에서는 models/pipeline.py에서 use_flash_attn 값을 False로 바꿔야 한다. PyTorch 2.9.x는 관련 이슈 때문에 권장되지 않는다.

기본 텍스트→이미지 생성은 다음 흐름이다.

python inference.py \
  --model_path /path/to/HiDream-O1-Image \
  --prompt "A clean product poster with accurate Korean and English text" \
  --output_image results/example.png

Prompt Agent를 OpenAI 호환 API 백엔드로 쓰면 다음처럼 프롬프트를 먼저 정제할 수 있다.

python prompt_agent.py \
  --backend api \
  --base_url https://api.openai.com/v1 \
  --api_key "$OPENAI_API_KEY" \
  --model_name gpt-5.5 \
  --prompt "한글 제품 포스터를 만들어줘"

어디에 쓰면 좋은가

디자인·마케팅 팀: 포스터, 배너, 제품 컷처럼 이미지 안 텍스트 정확도가 중요한 작업
콘텐츠 제작자: 같은 인물·캐릭터·상품을 여러 장면에 일관되게 배치해야 할 때
연구자·모델 엔지니어: VAE 없는 통합 이미지 생성 아키텍처와 텍스트 렌더링 성능을 실험할 때
로컬 이미지 생성 워크플로: MIT 라이선스 기반 오픈 모델을 자체 환경에서 돌리고 싶을 때

한계와 주의점

8B 모델이지만 고해상도 이미지 생성과 참조 이미지 개인화는 여전히 GPU 메모리를 많이 쓴다. 또한 Prompt Agent의 로컬 백엔드는 Gemma 4 31B 가중치가 필요하므로, 단순한 이미지 생성 도구라기보다는 연구·고급 제작 워크플로에 가깝다. 상업 사용 전에는 모델 산출물 정책, 학습 데이터 고지, 배포 환경의 라이선스 요구사항을 별도로 확인해야 한다.

라이선스

코드와 HiDream-O1-Image 모델은 MIT 라이선스로 공개되어 있다.

참고 자료

HiDream-ai/HiDream-O1-Image — GitHub 공식 저장소

Like?

AI Sparkup