AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

HiDream-O1-Image – 픽셀·텍스트를 단일 토큰 공간에서 처리하는 오픈 이미지 생성 모델

HiDream-O1-Image는 HiDream.ai가 공개한 8B 이미지 생성 파운데이션 모델이다. 핵심은 픽셀 수준 통합 트랜스포머(Pixel-level Unified Transformer, UiT)로, 외부 VAE나 분리된 텍스트 인코더 없이 원시 픽셀, 텍스트, 편집·개인화 조건을 하나의 공유 토큰 공간에서 처리한다. 텍스트→이미지, 이미지 편집, 주체 기반 개인화, 긴 텍스트 렌더링을 최대 2048×2048 해상도까지 지원한다.

HiDream-O1-Image 예시
출처: HiDream-ai/HiDream-O1-Image GitHub 저장소

무엇이 다른가

기존 확산 이미지 모델은 보통 VAE로 픽셀을 잠재 공간으로 압축하고, 별도 텍스트 인코더로 프롬프트를 처리한 뒤, U-Net 또는 DiT 계열 생성기에서 둘을 결합한다. HiDream-O1-Image는 이 구성을 더 통합적으로 만든다. 원시 픽셀과 텍스트 조건을 같은 토큰 공간에 놓기 때문에 텍스트 렌더링, 레이아웃 제어, 이미지 편집, 동일 주체 유지 같은 작업을 하나의 모델 계열에서 다룰 수 있다.

특히 이미지 안에 긴 문구를 넣거나, 다국어 텍스트를 여러 영역에 배치하거나, 참조 이미지의 인물·제품 정체성을 새 장면으로 옮기는 작업을 겨냥한다.

주요 기능

  • 픽셀 수준 통합 트랜스포머: VAE와 분리된 텍스트 인코더 없이 원시 픽셀·텍스트·조건을 통합 처리
  • 8B 오픈 모델: 전체 모델과 증류된 Dev 변형을 공개
  • 최대 2048×2048 생성: 고해상도 텍스트→이미지 생성 지원
  • 긴 텍스트 렌더링: 영어·중국어 중심 긴 문구 벤치마크에서 강한 성능을 보고
  • 이미지 편집: 지시문 기반 편집을 지원하며, 저장소는 편집 작업에 full 모델 사용을 권장
  • 주체 기반 개인화: 여러 참조 이미지를 받아 인물·제품 정체성을 보존한 새 장면 생성
  • 레이아웃·스켈레톤 조건: 2026년 5월 13일 업데이트로 개인화 파이프라인에 레이아웃과 스켈레톤 조건이 추가됨
  • Reasoning-Driven Prompt Agent: Gemma 4 31B 또는 OpenAI 호환 API로 프롬프트를 추론 기반으로 재작성
HiDream-O1-Image 벤치마크
출처: HiDream-ai/HiDream-O1-Image GitHub 저장소

모델 구성

모델용도기본 추론 스텝
HiDream-O1-Image품질 우선 full 모델50
HiDream-O1-Image-Dev빠른 개발·실험용 증류 모델28
Prompt Agent프롬프트 추론·재작성별도

Prompt Agent는 사용자의 짧은 지시를 그대로 생성기에 넣지 않고, 장면 구조, 물리적 관계, 주체 속성, 텍스트 배치 요구사항을 먼저 풀어 쓴 뒤 생성 프롬프트로 전달한다. 복잡한 포스터, 스토리보드, 캐릭터 일관성 작업에서 유용하다.

설치와 실행

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

저장소는 flash-attn 설치를 권장한다. 설치하지 못하는 환경에서는 models/pipeline.py에서 use_flash_attn 값을 False로 바꿔야 한다. PyTorch 2.9.x는 관련 이슈 때문에 권장되지 않는다.

기본 텍스트→이미지 생성은 다음 흐름이다.

python inference.py \
  --model_path /path/to/HiDream-O1-Image \
  --prompt "A clean product poster with accurate Korean and English text" \
  --output_image results/example.png

Prompt Agent를 OpenAI 호환 API 백엔드로 쓰면 다음처럼 프롬프트를 먼저 정제할 수 있다.

python prompt_agent.py \
  --backend api \
  --base_url https://api.openai.com/v1 \
  --api_key "$OPENAI_API_KEY" \
  --model_name gpt-5.5 \
  --prompt "한글 제품 포스터를 만들어줘"

어디에 쓰면 좋은가

  • 디자인·마케팅 팀: 포스터, 배너, 제품 컷처럼 이미지 안 텍스트 정확도가 중요한 작업
  • 콘텐츠 제작자: 같은 인물·캐릭터·상품을 여러 장면에 일관되게 배치해야 할 때
  • 연구자·모델 엔지니어: VAE 없는 통합 이미지 생성 아키텍처와 텍스트 렌더링 성능을 실험할 때
  • 로컬 이미지 생성 워크플로: MIT 라이선스 기반 오픈 모델을 자체 환경에서 돌리고 싶을 때

한계와 주의점

8B 모델이지만 고해상도 이미지 생성과 참조 이미지 개인화는 여전히 GPU 메모리를 많이 쓴다. 또한 Prompt Agent의 로컬 백엔드는 Gemma 4 31B 가중치가 필요하므로, 단순한 이미지 생성 도구라기보다는 연구·고급 제작 워크플로에 가깝다. 상업 사용 전에는 모델 산출물 정책, 학습 데이터 고지, 배포 환경의 라이선스 요구사항을 별도로 확인해야 한다.

라이선스

코드와 HiDream-O1-Image 모델은 MIT 라이선스로 공개되어 있다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)