Ollama의 새로운 멀티모달 모델 지원 (출처: Ollama 공식 블로그)
로컬 AI의 새로운 시각적 능력
최근 AI 모델의 진화는 텍스트에서 이미지, 오디오, 비디오로 확장되며 다양한 형태의 정보를 이해하고 처리할 수 있는 ‘멀티모달’ 능력으로 발전하고 있습니다. 하지만 대부분의 고성능 멀티모달 AI 모델은 클라우드 서비스로만 제공되어 개인정보 보호나 네트워크 연결 없이 사용하기 어렵다는 한계가 있었습니다.
오픈소스 AI 플랫폼인 Ollama가 이러한 한계를 극복하기 위해 로컬 환경에서 구동 가능한 멀티모달 모델을 지원하기 시작했습니다. 새롭게 발표된 Ollama의 멀티모달 엔진은 여러 연구기관에서 개발된 최신 시각 인식 모델을 로컬 컴퓨터에서 쉽게 실행할 수 있도록 해줍니다.
Ollama가 지원하는 주요 멀티모달 모델
멀티모달 AI와 기존 AI의 차이점 (출처: Medium, Hassaan Idrees)
Ollama의 새로운 엔진은 다음과 같은 주요 멀티모달 모델들을 지원합니다:
Meta Llama 4 (Scout)
Meta의 최신 모델인 Llama 4 Scout는 109억 개의 파라미터를 가진 대규모 혼합 전문가 모델(Mixture-of-Experts)로, 고도의 이미지 인식 및 추론 능력을 갖추고 있습니다.
ollama run llama4:scout
아래 예시는 Llama 4 Scout가 이미지를 분석하고 위치 기반 질문에 답하는 모습을 보여줍니다:

Llama 4 Scout는 샌프란시스코 페리 빌딩의 시계탑을 인식하고 그 주변 환경을 상세히 설명하는 것은 물론, 이 장소와 스탠포드 대학교 캠퍼스 사이의 거리와 최적의 이동 방법까지 제안할 수 있습니다.
Google Gemma 3
Google의 Gemma 3는 여러 이미지를 동시에 분석하고 그 관계를 파악하는 능력이 뛰어납니다.
ollama run gemma3
아래 예시는 사용자가 여러 이미지를 한 번에 입력하고 이미지 간의 관계에 대해 질문하는 모습을 보여줍니다:

Gemma 3는 네 개의 이미지에 공통적으로 등장하는 동물이 라마임을 인식하고, 그중 한 이미지에 돌고래가 등장한다는 사실까지 정확히 파악할 수 있습니다.
Qwen 2.5 VL
알리바바에서 개발한 Qwen 2.5 VL은 문서 스캐닝과 텍스트 인식 능력이 뛰어난 모델입니다.
ollama run qwen2.5vl
아래 예시는 Qwen 2.5 VL이 문서에 포함된 텍스트를 인식하는 모습을 보여줍니다:

Qwen 2.5 VL은 영수증이나 명함 같은 문서에서 텍스트를 추출하는 것은 물론, 세로로 쓰인 중국어 춘련(春聯)을 인식하고 영어로 번역하는 능력도 갖추고 있습니다.
Mistral Small 3.1
Mistral의 Small 3.1 모델도 Ollama의 새로운 엔진을 통해 시각 인식 능력을 갖추게 되었습니다. 이 외에도 다양한 시각 인식 모델들이 Ollama의 모델 라이브러리에서 제공됩니다.
Ollama 멀티모달 엔진의 기술적 특징

Ollama는 그동안 ggml-org/llama.cpp 프로젝트를 기반으로 모델을 지원해왔습니다. 하지만 다양한 멀티모달 모델을 효과적으로 지원하기 위해 새로운 엔진을 개발했습니다. 이 새로운 엔진은 다음과 같은 기술적 특징을 갖습니다:
모델 모듈화
Ollama의 새로운 엔진은 각 모델을 독립적인 모듈로 관리하여 신뢰성을 높이고 모델 통합을 단순화합니다. 기존의 llama.cpp는 텍스트 모델만 제대로 지원하고, 멀티모달 시스템의 경우 텍스트 디코더와 비전 인코더가 분리되어 실행됩니다.
Ollama의 새 엔진에서는 각 모델이 완전히 자체적으로 동작하며 자체 프로젝션 레이어를 노출할 수 있습니다. 이 격리 방식은 모델 개발자들이 다른 모델에 영향을 주지 않고 자신의 모델에만 집중할 수 있게 합니다.
정확성 향상
대용량 이미지는 처리 과정에서 많은 수의 토큰을 생성하여 배치 크기를 초과할 수 있습니다. Ollama는 이미지 처리 시 메타데이터를 추가하여 정확성을 개선합니다. 특히 다음과 같은 요소들을 고려합니다:
- 인과적 주의(causal attention)의 활성화 여부
- 이미지 임베딩을 배치로 나누어 처리할 때의 경계 설정
- 모델의 훈련 방식을 고려한 처리 과정
다른 로컬 추론 도구들은 이러한 부분들을 다르게 구현하지만, Ollama는 모델이 설계되고 훈련된 방식을 최대한 따르는 데 중점을 둡니다.
메모리 관리 최적화
Ollama의 새로운 엔진은 다음과 같은 메모리 관리 최적화 기능을 제공합니다:
- 이미지 캐싱: 한 번 처리된 이미지는 캐시에 저장되어 후속 프롬프트에서 더 빠르게 사용할 수 있습니다.
- 메모리 예측 및 KV 캐시 최적화: 하드웨어 제조업체 및 운영 체제 파트너와 협력하여 메모리 사용량을 더 정확하게 예측하고 최적화합니다.
- 모델별 최적화: 각 모델의 특성에 맞게 인과적 주의를 개별적으로 구성합니다.
예를 들어, Google DeepMind의 Gemma 3는 슬라이딩 윈도우 주의 메커니즘을 활용하여 메모리 효율성을 높이고 더 긴 문맥 길이를 지원합니다. Meta의 Llama 4 Scout와 Maverick 모델을 지원하기 위해 Ollama는 청크 단위 주의 메커니즘, 더 긴 문맥 길이를 위한 주의 조정, 특정 2D 회전 임베딩 등을 구현했습니다.
모델의 주의 레이어가 제대로 구현되지 않으면 작동은 하지만 출력 품질이 저하될 수 있습니다. 특히 문맥이 길어질수록 이러한 효과가 더 두드러집니다.
앞으로의 발전 방향
Ollama는 멀티모달 엔진의 다음과 같은 발전 방향을 제시하고 있습니다:
- 더 긴 문맥 길이 지원
- 추론 및 사고 능력 지원
- 스트리밍 응답이 가능한 도구 호출
- 컴퓨터 활용 기능 강화
로컬 AI의 시각적 능력 발전이 가져올 변화
로컬(엣지) AI의 구조: 데이터가 중앙 서버로 전송되지 않고 로컬에서 처리됨 (출처: Edge Impulse)
Ollama의 새로운 멀티모달 엔진은 로컬 AI 시스템의 시각적 능력을 한층 강화했습니다. 이제 사용자들은 자신의 컴퓨터에서 이미지를 인식하고 분석하는 고성능 AI 모델을 실행할 수 있게 되었습니다.
이러한 발전은 개인정보 보호와 네트워크 연결 없이도 AI의 시각적 능력을 활용할 수 있게 해주며, 다양한 응용 분야에서 새로운 가능성을 열어줍니다. 문서 스캐닝, 이미지 분석, 시각적 질의응답 등 다양한 기능을 로컬에서 실행할 수 있게 됨으로써, AI 기술의 접근성과 실용성이 크게 향상되었습니다.
Ollama의 새로운 멀티모달 엔진은 로컬 AI 모델의 발전 방향을 보여주는 중요한 이정표이며, 앞으로 더 다양한 능력을 갖춘 로컬 AI 시스템의 등장을 기대하게 만듭니다.
Comments