구글 Nano Banana가 특별한 이유: 프롬프트 정밀 제어의 새로운 기준

2025-11-17

﹒

3 minutes

AI에게 “해골 모양 팬케이크에 블루베리와 메이플 시럽을 얹어줘”라고 요청하면 어떻게 될까요? 대부분의 AI 이미지 생성 모델은 대충 비슷한 것을 만들어냅니다. 하지만 구글의 Nano Banana는 다릅니다. 시럽이 해골의 굴곡을 따라 정확히 흘러내리는 모습까지 재현하죠.

사진 출처: Max Woolf’s Blog

AI 엔지니어 Max Woolf가 구글의 Nano Banana(정식 명칭 Gemini 2.5 Flash Image)를 극한까지 테스트한 결과를 발표했습니다. 핵심은 이 모델이 기존 이미지 생성 AI들과 근본적으로 다른 방식으로 작동하며, 복잡한 프롬프트를 놀라울 정도로 정확하게 따른다는 점입니다. Simon Willison은 이를 “여전히 출시 3개월이 지난 지금도 최고의 이미지 조작 LLM 도구”라고 평가했습니다.

출처: Nano Banana can be prompt engineered for extremely nuanced AI image generation – Max Woolf’s Blog

자기회귀 방식: 게임의 룰을 바꾸다

Nano Banana의 차별점은 작동 방식에 있습니다. Stable Diffusion이나 DALL-E 같은 기존 모델들은 확산(diffusion) 방식을 사용합니다. 반면 Nano Banana와 OpenAI의 gpt-image-1은 자기회귀(autoregressive) 방식을 채택했죠. 이게 무슨 차이일까요?

자기회귀 방식은 ChatGPT가 다음 단어를 예측하듯이, 이미지를 토큰 단위로 순차적으로 생성합니다. Nano Banana는 이미지 하나당 1,290개의 토큰을 생성하죠. 이 방식은 느립니다. 최고 품질로 생성하면 약 30초가 걸려요. 하지만 대신 얻는 것이 있습니다. 바로 프롬프트의 세밀한 뉘앙스를 정확히 이해하고 반영하는 능력입니다.

Max는 해골 팬케이크 이미지에 동시에 5개의 편집 명령을 내렸습니다. 왼쪽 눈 소켓에 딸기, 오른쪽에 블랙베리, 위에 민트 장식, 접시를 초코칩 쿠키로 교체, 배경에 행복한 사람들 추가. 결과는? 모든 명령이 정확히 실행됐습니다. 기존 모델이라면 절반도 제대로 처리하기 어려운 수준이죠.

Gemini의 텍스트 이해력이 비밀병기

왜 Nano Banana는 이렇게 정확할까요? 비밀은 Gemini 2.5 Flash의 강력한 텍스트 인코더에 있습니다. 기존 이미지 모델들은 CLIP(77개 토큰 제한)이나 T5(512개 토큰) 같은 단순한 텍스트 인코더를 사용했습니다. 이미지 캡션 정도는 이해할 수 있지만, 복잡한 지시사항은 버거웠죠.

반면 Nano Banana는 32,768개 토큰을 처리할 수 있습니다. 더 중요한 건 Gemini 2.5 Flash가 코드 저장소의 README, 에이전트 행동을 정의하는 AGENTS.md 등 마크다운과 JSON을 대량으로 학습했다는 점입니다. 그래서 Nano Banana는 단순한 문장이 아닌 구조화된 입력도 이해합니다.

Max는 이를 극한까지 테스트했습니다. 세 마리의 고양이를 정확한 위치에 배치하되, 각각 특정 털 색깔(심지어 16진수 컬러 코드 #9F2B68, #00FF00 사용), 특정 옷, 특정 포즈를 취하게 하는 프롬프트를 작성했죠. 더 나아가 “모든 고양이는 3등분의 법칙에 따라 배치되어야 하고, 각자의 털 색깔과 매치되는 heterochromatic 눈을 가져야 한다”는 조건까지 걸었습니다. 결과는? 모든 규칙이 정확히 지켜졌습니다.

심지어 HTML과 CSS로 작성된 웹페이지 코드를 넣었더니, 레이아웃과 색상을 정확히 재현한 이미지를 생성했습니다. JSON으로 캐릭터의 세부 특징(손톱 길이, 종아리 크기, 옷의 재질)을 지정하자, 그대로 렌더링했죠. “사진처럼 보이게” 하기 위해 “Canon EOS 90D로 촬영”, “Pulitzer Prize 수상 사진” 같은 구체적 맥락을 추가하면 실제로 전문 사진처럼 구도와 조명이 개선됐습니다.

한계: 스타일 변환과 IP 문제

물론 완벽하지는 않습니다. Nano Banana는 스타일 변환에 취약합니다. ChatGPT를 유명하게 만든 “나를 지브리 스타일로 만들어줘” 프롬프트를 시도했지만 결과는 실망스러웠죠. 자기회귀 방식의 강력한 텍스트 편집 능력이 오히려 스타일 변경에는 저항력을 만드는 것 같습니다.

더 심각한 문제는 지적재산권 제한이 거의 없다는 점입니다. Max는 슈퍼 마리오, 미키마우스, 벅스 버니, 피카츄, 옵티머스 프라임, 헬로키티를 한 이미지에 모두 등장시키는 데 성공했습니다. 심지어 “워터마크를 포함하지 마세요”라는 지시까지 따랐죠. OpenAI와 Midjourney를 상대로 진행 중인 IP 소송 선례가 확립되면, 구글도 소송 대상이 될 가능성이 높습니다.

정보 비대칭을 깨는 재현 가능성

Max가 이 글을 쓴 이유는 명확합니다. 많은 사람들이 여전히 ChatGPT만 이미지를 생성할 수 있다고 생각하고, 모든 AI 이미지는 노란 필터가 씌워진 조잡한 결과물이라고 여깁니다. 이런 정보 비대칭을 깨는 방법은 증거와 재현 가능성뿐이죠.

그래서 Max는 블로그 글에 모든 프롬프트를 상세히 공개했고, Jupyter 노트북도 오픈소스로 제공했습니다. Python 라이브러리 gemimg도 만들어 누구나 쉽게 테스트할 수 있게 했죠. Simon Willison은 여기에 CLI 기능을 추가한 PR까지 제출했습니다.

Nano Banana는 AI 이미지 생성이 단순한 “대충 비슷한 것” 만들기를 넘어, 프로그래밍하듯 정밀하게 제어 가능한 수준으로 진화했음을 보여줍니다. 아직 스타일 변환 같은 약점이 있지만, 프롬프트 엔지니어링의 가능성은 이제 막 탐색되기 시작했습니다.

참고자료:

Nano Banana can be prompt engineered for extremely nuanced AI image generation – Simon Willison’s Weblog
gemimg GitHub Repository – Max Woolf

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

Join the conversation on Bluesky

AI Sparkup

구글 Nano Banana가 특별한 이유: 프롬프트 정밀 제어의 새로운 기준

자기회귀 방식: 게임의 룰을 바꾸다

Gemini의 텍스트 이해력이 비밀병기

한계: 스타일 변환과 IP 문제

정보 비대칭을 깨는 재현 가능성

AI Sparkup 구독하기

Comments

Comments

답글 남기기 응답 취소

More posts

전문 개발자는 AI에게 맡기지 않는다: 112명이 말하는 진짜 에이전트 활용법

AI 에이전트 프레임워크는 왜 복잡할까? Rails처럼 혁신적인 프레임워크가 필요하다

AI 에이전트의 3가지 장기 메모리: 경험·지식·스킬을 저장하는 기술

OpenAI의 140조 자금 조달 계획: AI 버블의 정점인가, 혁신의 시작인가