2025년 AI 업계에 새로운 바람이 불고 있다. ByteDance에서 개발한 BAGEL(Unified Multimodal Model)이 5월 20일 공식 출시되면서, 그동안 OpenAI의 GPT-4o나 Google의 Gemini 2.0 같은 거대 기업들이 독점하던 고성능 멀티모달 AI 영역에 오픈소스의 새로운 도전장이 던져졌다.
BAGEL의 Mixture-of-Transformer-Experts (MoT) 아키텍처 (출처: ByteDance-Seed/BAGEL GitHub)
하나의 모델로 모든 것을 처리하는 통합형 AI
BAGEL의 가장 큰 특징은 ‘통합형 멀티모달 모델’이라는 점이다. 기존에는 이미지 이해는 GPT-4V, 이미지 생성은 DALL-E, 이미지 편집은 또 다른 전용 모델을 사용해야 했다면, BAGEL은 하나의 모델로 이 모든 작업을 처리할 수 있다.
구체적으로 BAGEL이 할 수 있는 작업들은 다음과 같다:
- 멀티모달 이해: 이미지를 보고 내용을 설명하거나 질문에 답변
- 텍스트-이미지 생성: 텍스트 프롬프트에 따른 고품질 이미지 생성
- 이미지 편집: 기존 이미지를 자유롭게 수정하고 변환
- 고급 기능: 미래 프레임 예측, 3D 조작, 월드 네비게이션 등
이런 통합적 접근법은 단순히 편의성만을 위한 것이 아니다. 서로 다른 모달리티 간의 상호작용을 하나의 모델 내에서 학습함으로써, 각 영역에서의 성능도 향상시킬 수 있다는 것이 ByteDance 연구팀의 핵심 아이디어다.
성능 비교: 기존 강자들과 어깨를 나란히
BAGEL의 성능은 어떨까? 공개된 벤치마크 결과를 보면 상당히 인상적이다.
멀티모달 이해 능력 비교:
- MME: 2388점 (Qwen2.5-VL-7B: 2347점)
- MMBench: 85.0점 (Qwen2.5-VL-7B: 83.5점)
- MathVista: 73.1점 (Qwen2.5-VL-7B: 68.2점)
텍스트-이미지 생성 능력:
- GenEval 점수에서 0.88점을 기록하여 FLUX-1-dev(0.82점), SD3-Medium(0.74점)을 상회
이미지 편집 능력:
- GEdit-Bench-EN에서 7.36점으로 Step1X-Edit(7.09점)을 넘어서는 성과
훈련 과정에서 나타나는 BAGEL의 능력 발현 곡선 (출처: ByteDance-Seed/BAGEL GitHub)
특히 주목할 점은 7B 활성 파라미터(총 14B)라는 상대적으로 작은 크기로도 이런 성능을 달성했다는 것이다. 이는 효율적인 Mixture-of-Transformer-Experts (MoT) 아키텍처 덕분이다.
기술적 혁신: MoT 아키텍처의 힘
BAGEL의 핵심 기술은 MoT(Mixture-of-Transformer-Experts) 아키텍처다. 이는 기존의 Mixture of Experts 개념을 트랜스포머 구조에 특화시킨 것으로, 모델의 용량을 극대화하면서도 효율적인 학습을 가능하게 한다.
MoT의 주요 특징:
- 선택적 활성화: 입력에 따라 필요한 전문가(Expert) 모델만 활성화
- 이중 인코더: 픽셀 레벨과 의미 레벨의 이미지 특징을 각각 포착
- Next Group of Token Prediction: 언어와 비주얼 토큰을 그룹 단위로 예측
이런 구조 덕분에 BAGEL은 조 단위(trillions)의 멀티모달 토큰으로 학습하면서도 효율적인 추론이 가능하다.
오픈소스의 가치: 자유롭게 사용하고 개발하세요
BAGEL이 주목받는 또 다른 이유는 완전한 오픈소스 모델이라는 점이다. Apache 2.0 라이선스 하에 공개되어 누구나 자유롭게 사용, 수정, 상업적 이용이 가능하다.
개발자들이 할 수 있는 것들:
- 모델 파인튜닝으로 특정 용도에 맞게 커스터마이징
- 자체 서버에 배포하여 데이터 프라이버시 보장
- 기존 애플리케이션에 통합하여 멀티모달 기능 추가
- 연구 목적으로 모델 구조 분석 및 개선
실제로 출시 일주일 만에 커뮤니티에서는 ComfyUI 연동, 압축 버전 제작, Windows 패키지 등 다양한 기여가 이어지고 있다. 이는 오픈소스 생태계의 빠른 혁신 속도를 보여주는 사례다.
사용법: 몇 줄의 코드로 시작하기
BAGEL을 직접 사용해보고 싶다면 생각보다 간단하다. 기본적인 설치와 사용 과정은 다음과 같다:
# 1. 환경 설정
git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
conda create -n bagel python=3.10 -y
conda activate bagel
pip install -r requirements.txt
# 2. 모델 다운로드
python -c "
from huggingface_hub import snapshot_download
snapshot_download(
repo_id='ByteDance-Seed/BAGEL-7B-MoT',
local_dir='/path/to/save/BAGEL-7B-MoT'
)
"
# 3. Gradio 웹 인터페이스 실행
pip install gradio
python app.py
온라인 데모도 제공하고 있어서, 설치 없이도 브라우저에서 바로 체험해 볼 수 있다.

AI 생태계에 미칠 파급 효과
BAGEL의 등장은 단순히 하나의 모델 출시를 넘어서는 의미를 갖는다. 몇 가지 중요한 트렌드를 시사한다:
1. 오픈소스 vs 클로즈드소스 경쟁 심화
그동안 GPT-4o나 Gemini 같은 상용 모델들이 압도적 성능으로 시장을 주도했다면, 이제는 오픈소스 모델들도 충분히 경쟁력 있는 대안이 되고 있다. 이는 기업들에게 더 많은 선택권을 제공하고, 전체적인 AI 기술 발전을 가속화할 것으로 예상된다.
2. 통합형 모델의 부상
각 작업별로 전용 모델을 사용하던 방식에서, 하나의 모델로 여러 작업을 처리하는 통합형 접근법이 주류가 될 가능성이 높다. 이는 개발 복잡성을 줄이고 비용 효율성을 높이는 장점이 있다.
3. 멀티모달 AI의 대중화
고성능 멀티모달 모델이 오픈소스로 공개됨에 따라, 더 많은 개발자와 기업이 이미지-텍스트 통합 애플리케이션을 개발할 수 있게 될 것이다. 이는 AI 애플리케이션의 다양성과 혁신을 촉진할 것으로 기대된다.
BAGEL의 다양한 멀티모달 능력을 보여주는 예시들 (출처: ByteDance-Seed/BAGEL GitHub)
미래 전망: 더 나은 AI를 향한 여정
BAGEL은 시작에 불과하다. ByteDance 연구팀은 모델의 “새로운 능력의 점진적 발현(Emerging Properties)” 현상을 발견했다고 발표했다. 즉, 더 많은 데이터로 훈련할수록 예상치 못한 새로운 능력들이 나타날 수 있다는 것이다.
현재 BAGEL에서 관찰되는 발현 패턴:
- 초기 단계: 기본적인 멀티모달 이해와 생성
- 중간 단계: 단순한 이미지 편집
- 후기 단계: 복잡하고 지능적인 편집, 3D 조작 등
이런 발견은 단순히 모델 크기를 키우는 것을 넘어서, 어떻게 훈련시키느냐가 AI의 능력을 결정하는 핵심 요소임을 시사한다.
결론: 새로운 시대의 문을 여는 열쇠
BAGEL의 등장은 AI 업계에 여러 중요한 메시지를 던진다. 첫째, 오픈소스도 충분히 상용 서비스와 경쟁할 수 있는 수준에 도달했다는 것이다. 둘째, 통합형 멀티모달 모델이 미래 AI의 주요 방향이 될 것이라는 점이다. 셋째, 커뮤니티 중심의 개발과 혁신이 AI 발전을 가속화할 수 있다는 가능성이다.
물론 BAGEL도 아직 완벽하지는 않다. 일부 복잡한 작업에서는 여전히 GPT-4o나 Gemini에 뒤처지는 부분들이 있고, 실제 상용 서비스 수준의 안정성과 확장성도 더 검증이 필요하다.
하지만 중요한 것은 방향성이다. AI가 소수 대기업의 전유물이 아닌, 더 많은 사람들이 접근하고 활용할 수 있는 도구로 발전하고 있다는 점이다. BAGEL은 그 여정에서 중요한 이정표가 될 것으로 보인다.
개발자든 기업이든, 이제는 고성능 멀티모달 AI를 무료로 사용할 수 있는 시대가 되었다. 중요한 것은 이 기회를 어떻게 활용하느냐일 것이다.
참고자료:
Comments