AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI가 제품 포장재를 읽는다: 멀티모달 시대의 픽셀 수준 이미지 SEO

이미지를 웹사이트에 올릴 때 뭘 신경 쓰시나요? 파일 크기 줄이고, alt text 쓰고, 로딩 속도 체크하는 정도였을 겁니다. 그런데 ChatGPT와 Gemini 같은 멀티모달 AI가 등장하면서 게임의 룰이 바뀌었습니다. 이제 AI는 이미지를 ‘보는’ 게 아니라 ‘읽습니다’. 그리고 그 읽기 능력이 검색 순위를 좌우하기 시작했죠.

사진 출처: Search Engine Land / Lord Leathercraft

Search Engine Land의 기고 글이 멀티모달 AI 시대의 이미지 SEO 전략을 기술적으로 분석했습니다. 핵심은 이미지가 단순히 시각적 장식이 아니라 AI가 ‘읽을 수 있는 구조화된 데이터’가 되었다는 것입니다. 제품 포장재의 글씨 크기부터 사진 속 객체 조합, 심지어 모델의 표정까지 SEO 요소가 되는 시대가 왔습니다.

출처: Image SEO for multimodal AI – Search Engine Land

AI는 이미지를 어떻게 ‘읽는’가

멀티모달 AI는 이미지를 보는 방식이 우리와 완전히 다릅니다. Visual tokenization이라는 과정을 거치는데요, 이미지를 작은 격자 패치로 나눈 다음 각각을 벡터(숫자 시퀀스)로 변환합니다. 마치 문장을 단어로 쪼개듯이 이미지를 ‘시각적 단어’로 분해하는 거죠.

그래서 AI는 ‘테이블 위에 있는'(텍스트)과 ‘[컵 이미지 토큰]’을 합쳐서 ‘테이블 위의 [컵] 사진’처럼 텍스트와 이미지 토큰이 섞인 문장을 하나의 완결된 의미로 이해합니다. 이미지 속 텍스트는 OCR(광학 문자 인식)로 직접 추출하고요. 여기서 문제가 생깁니다. 이미지 화질이 낮거나 압축 아티팩트가 심하면 시각 토큰이 ‘노이즈 투성이’가 되고, AI는 잘못된 해석을 내놓거나 아예 환각(hallucination)을 일으킵니다. 존재하지 않는 텍스트나 객체를 자신 있게 설명하는 거죠.

예상 밖의 SEO 요소들

1. 제품 포장재가 랭킹 요소가 됐다

Google Lens나 Gemini 같은 검색 에이전트는 이제 제품 이미지에서 직접 성분표, 사용법, 특징을 읽어냅니다. 그런데 문제가 있어요. FDA나 EU 식품 라벨링 규정은 0.9mm 크기의 작은 글씨를 허용하는데, 이건 사람 눈에는 괜찮아도 AI 눈에는 안 보입니다.

OCR이 텍스트를 제대로 읽으려면 글자 높이가 최소 30픽셀은 되어야 하고, 명암 대비는 40 그레이스케일 값 이상이어야 합니다. 광택 포장재도 문제예요. 빛 반사로 생긴 글레어가 텍스트를 가려버리면 AI는 정보를 파싱하지 못하거나 잘못된 정보를 만들어냅니다. 최악의 경우 제품을 아예 검색 결과에서 제외시키죠.

2. 사진 속 객체 조합이 브랜드 이미지를 결정한다

AI는 이미지 속 모든 객체를 인식하고 그들의 관계로 브랜드, 가격대, 타겟 고객을 추론합니다. 이걸 ‘co-occurrence(동시 출현)’ 분석이라고 하는데요, 제품 옆에 뭘 놓느냐가 검색 랭킹 신호가 됩니다.

예를 들어볼게요. 파란색 가죽 시계줄을 빈티지 황동 나침반, 따뜻한 나무결 표면과 함께 찍으면 AI는 ‘헤리티지 탐험’이라는 시맨틱 신호를 감지합니다. 아날로그 기계, 낡은 금속, 촉감 좋은 스웨이드의 조합이 ‘시대를 초월한 모험’과 ‘구시대 품격’이라는 페르소나를 만들어내는 거죠.

같은 시계를 네온 에너지 드링크, 플라스틱 디지털 스톱워치 옆에 놓으면요? 내러티브가 완전히 바뀝니다. 시각적 맥락이 ‘대중 시장 유틸리티’를 신호하면서 제품의 인지된 가치가 희석되는 겁니다.

Google Vision API를 쓰면 이미지 속 객체들을 추출해서 감사할 수 있어요. OBJECT_LOCALIZATION 기능으로 ‘watch’, ‘plastic bag’, ‘disposable cup’ 같은 라벨과 함께 Knowledge Graph ID까지 받을 수 있죠. 이 시각적 이웃들이 가격표와 같은 이야기를 하는지 체크해야 합니다.

3. 모델 표정의 감정 점수가 측정된다

AI는 이제 감정까지 읽습니다. Google Cloud Vision API는 얼굴의 기쁨, 슬픔, 분노, 놀람을 감지해서 신뢰도 점수를 매깁니다. 그리고 이게 새로운 최적화 벡터가 되었어요.

여름 옷을 팔면서 모델이 무표정하거나 우울해 보인다면? 하이패션 사진에서 흔한 무드지만, AI는 ‘즐거운 여름 옷’ 검색에서 그 이미지 우선순위를 낮춥니다. 시각적 감정이 검색 의도와 충돌하기 때문이죠.

API는 감정을 고정된 척도로 평가합니다. UNKNOWN(데이터 부족), VERY_UNLIKELY(강한 부정 신호), UNLIKELY, POSSIBLE(중립/애매함), LIKELY, VERY_LIKELY(강한 긍정 신호). ‘행복한 가족 저녁 식사’ 같은 긍정 의도 검색에서는 기쁨(joy) 속성이 VERY_LIKELY로 나와야 합니다. POSSIBLE이나 UNLIKELY면 신호가 너무 약해서 AI가 그 이미지를 행복한 것으로 인덱싱하지 못해요.

단, 이것도 전제 조건이 있습니다. AI가 얼굴을 제대로 인식해야 하죠. detectionConfidence가 0.60 이하면 AI가 얼굴 식별 자체를 못 하는 거라 감정 판독이 통계적으로 무의미한 노이즈가 됩니다. 0.90 이상이어야 신뢰할 수 있어요.

픽셀과 의미 사이의 간극이 사라진다

이미지를 이제 페이지의 키워드만큼 신중하게 다뤄야 합니다. 이미지와 텍스트 사이의 시맨틱 간극이 사라지고 있거든요. 멀티모달 AI에게 이미지는 언어 시퀀스의 일부로 처리됩니다.

로딩 속도나 압축만 신경 쓰던 시대는 끝났습니다. 이제는 픽셀 자체의 품질, 명확성, 시맨틱 정확도가 페이지 텍스트만큼 중요해졌어요. 제품 포장재 디자인할 때 글씨 크기 확인하고, 제품 사진 찍을 때 옆에 뭘 놓을지 고민하고, 모델 표정이 검색 의도와 맞는지 점검하는 게 이제 SEO의 일부입니다.

기계의 시선으로 세상을 보는 법을 배워야 할 시간입니다.

참고자료: Cloud Vision API documentation – Google Cloud


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다