AI가 이미지를 볼 때, 사람의 눈처럼 색과 형태를 직접 인식하는 게 아닙니다. 그저 숫자 목록으로 압축합니다. 그런데 그 숫자들이 정확히 무엇을 담고 있는지, 우리가 실제로 들여다볼 수 있다면 어떨까요?

소프트웨어 엔지니어 Preston Jensen이 비전 모델 DINOv3의 임베딩 공간을 해부한 실험을 공개했습니다. Sparse Autoencoder(SAE)라는 도구를 활용해 384개 숫자 속에 무려 1만 2천 개의 시각적 개념이 압축되어 있다는 것을 시각적으로 증명한 탐구 기록입니다.
출처: Playing with Vision Embeddings – Preston Jensen
384개 숫자에 수천 가지 개념이 들어가는 원리
DINOv3는 어떤 이미지든 384개의 숫자 목록(임베딩)으로 변환하는 비전 모델입니다. 언어를 모르고, 무엇을 보는지 설명할 수도 없지만, 픽셀에서 의미 있는 패턴을 스스로 학습합니다.
여기서 자연스러운 의문이 생깁니다. 세상에는 수백만 가지 시각적 개념이 있는데, 어떻게 384개 숫자에 다 담길 수 있을까요? 답은 중첩(Superposition) 이라는 현상에 있습니다. 신경망은 각 개념을 별도의 차원에 하나씩 할당하는 대신, 여러 개념을 서로 거의 직교하는 ‘방향’으로 겹쳐서 저장합니다. 마치 좁은 창고에 가구를 대각선으로 비틀어 넣는 것처럼요. 384차원 공간에는 이런 방향이 수천 개 이상 존재할 수 있습니다.
덕분에 모델은 차원 수보다 훨씬 많은 개념을 표현할 수 있죠. 반면에 단일 차원만 들여다봐서는 무엇을 의미하는지 알 수 없다는 단점도 생깁니다. 여러 개념이 한 차원에 뒤섞여 있으니까요.
SAE로 개념을 분리하고, 이미지로 역번역하다
Jensen은 이 뒤섞인 표현들을 분리하기 위해 SAE(Sparse Autoencoder)를 활용했습니다. SAE는 압축된 공간을 더 넓게 펼쳐, 각 개념이 독립된 방향을 갖도록 유도하는 구조입니다. 언어 모델 해석 연구에서 먼저 개발된 기법인데, Jensen은 이를 비전 모델에 적용했습니다.
훈련 결과, SAE는 384차원 공간에서 약 1만 2천 개의 고유한 방향(feature)을 추출했습니다. 각 방향은 대체로 하나의 해석 가능한 시각 개념에 대응했습니다.
이 개념들을 실제로 보기 위해 Jensen은 역방향 생성 기법도 구현했습니다. 흐름은 이렇습니다.
- SAE가 추출한 특정 feature 방향을 선택
- 해당 방향의 임베딩과 코사인 유사도를 최대화하는 픽셀을 역산
- 그 결과 이미지를 생성해 “이 방향은 무엇을 의미하는가”를 시각화
생성된 이미지들은 나무, 금속 질감, 건축물, 음식 등 직관적으로 이해 가능한 패턴을 보여줬습니다. 골든게이트 브리지 사진을 분석하자 가장 강하게 반응한 feature가 골든게이트 브리지 그 자체에 전용된 개념이었다는 결과도 나왔습니다.
두 개의 딸기 feature가 알려준 것
딸기 실험이 특히 인상적입니다. Jensen이 SAE feature들을 탐색하다가, 둘 다 딸기처럼 보이는 feature를 두 개 발견했습니다. 과연 이 둘은 어떻게 다를까요?
단순히 시각적으로는 하나는 큰 딸기 하나, 다른 하나는 여러 개의 작은 딸기처럼 보였습니다. Jensen은 이것을 체계적으로 검증했습니다. 딸기 크기를 점진적으로 줄이면서 두 feature의 반응 강도를 측정하고, 딸기 개수도 바꿔가며 실험을 반복했습니다.
결론은 명확했습니다. feature 1511은 ‘크고 온전한 딸기 하나’에 반응했고, feature 2314는 ‘여러 개의 작은 딸기’에 반응했습니다. 딸기를 잘라서 보여주자 1511의 반응이 급격히 떨어졌습니다. 크기도 개수도 아닌, 온전함(wholeness)이 핵심 변수였던 겁니다.
1만 2천 개 feature 중 딸기만 해도 이 정도로 섬세하게 분화되어 있다는 뜻입니다. 나머지는 더 말할 나위가 없겠죠.
AI 해석 연구가 비전으로 확장되다
이 실험의 의미는 단순한 호기심을 넘어섭니다. SAE를 활용한 feature 해석 연구는 원래 언어 모델의 내부를 이해하기 위해 발전해 왔습니다. Jensen의 작업은 동일한 접근이 비전 모델에서도 유효하다는 것을 보여주는 사례입니다.
어떤 픽셀 패턴이 모델의 어떤 개념을 활성화하는지, 여러 개념을 더하면 표현 공간에서 어떻게 결합되는지를 직접 확인할 수 있게 됐습니다. 원문에는 feature들을 직접 더하거나 보간(interpolation)하는 인터랙티브 시각화와, 1만 2천 개 feature 전체를 탐색하는 지도도 포함되어 있습니다.

답글 남기기