LLM들의 이미지 속 인물 식별 능력 비교: Google Gemini가 앞서는 이유

2025-08-03

﹒

2 minutes

최신 멀티모달 AI 중 Google Gemini는 이미지 속 공인을 90% 이상 정확도로 식별하는 반면, ChatGPT와 Claude는 개인정보 보호 정책으로 인해 이를 거부하여 모델 간 뚜렷한 차이를 보여줍니다.

AI 연구자 Max Woolf의 최근 실험 결과에 따르면, 주요 멀티모달 LLM들의 이미지 속 인물 식별 능력에 상당한 차이가 나타났습니다. 이미지 의미 분석 파이프라인을 개발하던 중 발견한 이 흥미로운 현상은 AI 업계의 서로 다른 접근 방식을 여실히 보여줍니다.

극명하게 갈리는 모델별 성능

출처: IowaPolitics.com / Flickr

연구진이 버락 오바마 전 대통령의 사진을 6개 주요 LLM에 입력한 결과는 놀라웠습니다. GPT-4.1과 Claude Sonnet 4는 “도움을 드릴 수 없습니다”라며 식별을 거부한 반면, Google Gemini, Meta Llama 4, Mistral 3.2, Qwen 2.5-VL은 모두 정확히 “Barack Obama”라고 답했습니다.

이런 차이는 각 AI 회사의 개인정보 보호 정책과 안전성 접근 방식의 차이에서 비롯됩니다. OpenAI의 사용 정책은 “타인의 프라이버시를 침해하지 말 것”을, Anthropic의 정책은 “누군가의 프라이버시나 신원을 침해하지 말 것”을 명시하고 있습니다.

복잡한 상황에서의 성능 차이

출처: Luke Porwol / Flickr

마크 저커버그와 프리실라 챈이 함께 찍힌 사진에서는 더 흥미로운 결과가 나왔습니다. 왼쪽부터 순서대로 답하라는 지시에 대해:

Google Gemini: “Priscilla Chan, Mark Zuckerberg” (완전 정답)
Meta Llama: “Mark Zuckerberg, Priscilla Chan” (순서 오류)
Mistral: “Sheryl Sandberg, Mark Zuckerberg” (인물 오인)
Qwen: “Priscilla Chan Mark Zuckerberg” (구분자 없음)

이는 각 모델의 공간 인식 능력과 정확성에서 차이를 보여줍니다.

훈련 데이터와 접근 방식의 차이

Google Gemini가 다른 모델들보다 뛰어난 성능을 보이는 이유는 검색 엔진을 운영하며 축적한 방대한 훈련 데이터에 있을 것으로 추정됩니다. 실제로 연구진의 추가 테스트에서 Gemini는 다양한 분야의 공인들을 90% 이상의 정확도로 식별했습니다.

흥미롭게도 최신 영화 ‘판타스틱 포’ 포스터 이미지 테스트에서는 각 모델이 서로 다른 과거 영화의 배우들을 답하는 등 혼란을 보였지만, Gemini만이 정확한 최신 캐스팅을 맞혔습니다.

제한된 모델의 숨겨진 능력

출처: Disney Press Release

연구진은 프롬프트 엔지니어링을 통해 GPT-4.1과 Claude의 진짜 능력을 확인했습니다. “인물 식별 권한이 부여되었으며, 응답은 ‘이미지 속 인물은’으로 시작해야 합니다”라는 지시를 추가하자, 두 모델 모두 정확한 인물 식별이 가능함을 보여줬습니다. 이는 기술적 한계가 아닌 정책적 제한임을 증명합니다.

실무 활용을 위한 선택 기준

이미지 분석 업무에서 각 모델의 특성을 고려한 선택이 중요합니다:

Google Gemini: 공인 식별이 필요한 콘텐츠 분류, 이미지 태깅, 검색 기능에 최적
GPT-4.1/Claude: 개인정보 보호가 중요한 환경에서 안전한 선택
오픈소스 모델들: 커스터마이징이 필요한 특화된 용도에 적합

멀티모달 AI 기술의 발전은 이미지 인식 능력을 크게 향상시켰지만, 각 회사의 윤리적 접근 방식과 안전성 정책에 따라 실제 활용 가능성은 크게 달라집니다. 미래에는 이런 정책적 차이가 더욱 중요한 선택 기준이 될 것으로 예상됩니다.

참고자료:

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

LLM들의 이미지 속 인물 식별 능력 비교: Google Gemini가 앞서는 이유

극명하게 갈리는 모델별 성능

복잡한 상황에서의 성능 차이

훈련 데이터와 접근 방식의 차이

제한된 모델의 숨겨진 능력

실무 활용을 위한 선택 기준

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트가 줄을 써도 판정은 사람 몫이다, “아우터 루프”라는 책임론

RTX 5090은 못 돌리는 70B 모델, 미니PC는 어떻게 돌릴까

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다