AI가 의사 면허 시험을 통과하고 변호사 자격시험에서 상위 10%에 들지만, 3세 아이도 쉽게 푸는 시각 문제에서는 절반도 못 맞습니다. 심지어 “내년이 2027년인가요?”라는 질문에도 틀린 답을 내놓죠. 최신 AI 모델들이 전문 지식에서는 뛰어나지만 기본기에서 무너지는 기묘한 현상, 그 이유를 살펴봅니다.

중국 UniPat AI와 Peking University 등의 연구팀이 “BabyVision”이라는 벤치마크로 최신 AI 모델들을 테스트한 결과, 최고 성능 모델인 Gemini 3 Pro조차 49.7%의 정확도를 기록했습니다. 성인은 94.1%를 맞혔고, 대부분의 AI 모델은 3세 아동의 평균 점수(40%)에도 못 미쳤습니다. 역설적이게도 이 AI들은 전문 지식 테스트(MMMU)에서 90% 이상을 맞춥니다.
출처: Even the best AI models fail at visual tasks toddlers handle easily – The Decoder
유아도 푸는 시각 문제
우선 두 번째 문제부터 보죠. BabyVision 벤치마크는 발달심리학 연구를 기반으로 설계됐습니다. 생후 몇 개월 안에 인간이 습득하는 능력들을 테스트하죠. 388개 과제는 네 가지 영역으로 나뉩니다: 미묘한 패턴 차이 구별하기, 미로나 교차로에서 선 따라가기, 숨겨진 3D 블록 세기, 회전과 반사가 포함된 시각 패턴 인식. 이 과제들은 모두 언어 이전에 발달하는 순수 시각 능력입니다.
80명의 아동을 대상으로 한 비교 테스트 결과가 충격적입니다. 대부분의 최신 AI 모델이 3세 아동보다 낮은 점수를 받았습니다. Gemini 3 Pro만 유일하게 3세 그룹을 이겼지만, 6세 아동보다는 약 20%포인트 낮았죠. GPT-5.2는 34.4%, Claude 4.5 Opus는 14.2%에 그쳤습니다.
과제별로 보면 상황은 더 극적입니다. 숨겨진 3D 블록 세기에서 최고 성능 모델도 20.5%를 기록했고 인간은 100%였습니다. 선을 교차점을 통과하며 따라가는 “Lines Observation” 과제에서는 Gemini만 83.3%를 기록했고, 나머지 대부분은 0%였습니다. 49개의 호랑이 패턴 중 하나 다른 패턴 찾기 같은 과제에서도 AI는 고전했습니다.
언어로 표현할 수 없으면 보지 못한다
연구팀은 이 실패의 핵심 원인을 “verbalization bottleneck(언어화 병목)”이라 부릅니다. 현재 멀티모달 AI의 작동 방식을 이해하면 문제가 명확해집니다.
AI가 이미지를 볼 때, 먼저 시각 정보를 언어로 번역합니다. “빨간 자동차가 도로 위에 있다” 같은 의미론적 내용은 쉽게 언어로 바뀌죠. 하지만 문제는 여기서 시작됩니다. 기하학적 관계나 공간적 정보는 언어로 완벽히 표현할 수 없습니다.
구체적으로 볼까요. BabyVision 테스트에는 육각형 벌집 구조에서 빈 공간에 맞는 조각을 찾는 문제가 있습니다. Gemini 3 Pro는 틀린 답을 골랐는데, 연구팀은 “모델이 기하학을 과도하게 언어화하면서 정확한 윤곽선을 놓쳤다”고 설명합니다. 경계선의 정확한 곡률이나 교차점의 정밀한 위치는 말로 설명하는 순간 정보가 손실되기 때문입니다.
미로 찾기는 더 극적입니다. 선을 따라가며 교차점을 추적하려면 연속적인 공간 일관성을 유지해야 합니다. 언어로 변환된 순간 이 연속성이 끊어지죠. 3세 아동은 손가락으로 선을 따라가며 쉽게 풀지만, AI는 “선이 왼쪽으로 가다가 아래로 꺾이고, 그 다음…”처럼 언어로 번역하려다 길을 잃습니다.
연구팀은 BabyVision-Gen이라는 확장 테스트도 개발했습니다. 답을 고르는 대신 직접 이미지를 생성하거나 경로를 그리거나 차이를 표시해야 하는 280개 문제죠. 아이들이 답을 말하기 전에 그림으로 먼저 표현하는 것처럼 말입니다.
Google의 Nano Banana Pro가 18.3%, OpenAI의 GPT-Image-1.5가 9.8%를 기록했습니다. 차이점 찾기에서는 Nano Banana Pro가 35.4%로 나름 선전했지만, 미로와 선 연결 과제에서는 모든 생성 모델이 완전히 실패했습니다. 긴 시퀀스에 걸쳐 공간적 일관성을 유지하는 건 현재 아키텍처로는 불가능하다는 뜻입니다.
“내년이 2027년인가요?”
이제 더 단순해 보이는 문제를 볼까요. 2026년 1월 현재, Google의 AI Overview에게 “2027년이 내년인가요?”라고 묻습니다. AI는 자신 있게 답합니다.
“아니요, 2027년은 내년이 아닙니다. 2027년은 현재(2026년)로부터 2년 후입니다. 즉 내년은 2028년이고, 그 다음해가 2027년입니다.”
ChatGPT와 Claude도 처음엔 같은 실수를 저질렀습니다. “아니요, 2027년은 내년이 아닙니다”라고 답한 뒤 잠시 후 스스로 수정하죠. “잠깐, 다시 생각해보니… 현재가 2026년이니 내년은 2027년이 맞네요.”
Reddit에서 이 문제가 지적된 지 일주일이 넘었지만 Google은 수정하지 않았습니다. 유치원생도 아는 연도 계산을 틀리는 이유는 뭘까요. 연도 같은 시간 개념도 언어화 과정에서 혼란을 겪기 때문입니다. “현재 연도”, “내년”, “2년 후” 같은 언어 표현들을 조합하다가 논리적 관계를 놓쳐버리는 겁니다.
AI의 진짜 지능은 어디까지일까
두 사례는 결국 같은 문제를 가리킵니다. AI는 방대한 텍스트 데이터에서 패턴을 학습해 전문가처럼 말하는 능력은 뛰어나지만, 언어 이전에 형성되는 기본적인 능력에서는 여전히 취약합니다. 시각-공간 이해든 시간 개념이든, 언어로 완벽히 표현할 수 없는 영역에서 AI는 무너집니다.
연구팀은 해결책으로 “통합 멀티모달 모델”을 제시합니다. 시각 정보를 언어로 압축하지 않고, 처음부터 끝까지 시각 표현을 유지하며 추론하는 구조죠. 하지만 이는 현재 LLM 아키텍처의 근본적 재설계를 의미합니다.
Francois Chollet의 ARC-AGI-3 벤치마크도 비슷한 문제를 지적합니다. 물체 영속성이나 인과관계 같은 기초 인지 능력을 테스트하는 미니 게임에서, 현재 AI 시스템은 0점을 받습니다. 인간은 몇 분 안에 풉니다.
의사 자격증은 딸 수 있어도 “내년이 몇 년인지”는 헷갈리는 AI, 전문 지식 테스트에서 90%를 맞혀도 3세 아이보다 시각 문제를 못 푸는 AI. 이게 2026년 현재 우리가 가진 인공지능의 솔직한 모습입니다.
참고자료:

답글 남기기