AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

OLMo 3: 학습 데이터부터 추론 과정까지 완전히 열린 AI 모델

AI 모델을 다운받아 사용할 수는 있습니다. 하지만 그 모델이 어떤 데이터로 학습됐는지, 어떤 과정을 거쳐 지금의 성능을 갖추게 됐는지 아시나요? 대부분의 오픈 모델들은 최종 결과물인 가중치만 공개할 뿐, 그 이면의 개발 과정은 여전히 블랙박스로 남아있습니다.

Allen Institute for AI가 발표한 OLMo 3는 이런 관행에 정면으로 도전합니다. 단순히 모델 가중치만 공개하는 게 아니라, 학습 데이터부터 중간 체크포인트, 추론 과정까지 전체 개발 파이프라인을 투명하게 공개했죠.

사진 출처: Allen AI

Allen AI가 오픈소스 언어 모델 OLMo 3를 발표하면서 ‘Model Flow’라는 새로운 개념을 제시했습니다. 이는 모델 개발의 전 생명주기—학습 데이터, 코드, 체크포인트, 의존성—를 모두 공개하고 커스터마이징할 수 있게 만든 것입니다. 특히 OLMo 3-Think (32B)는 완전 오픈 모델 중 최고 성능의 추론 모델로, 중간 추론 과정을 실시간으로 들여다보고 그 행동을 학습 데이터까지 역추적할 수 있습니다.

출처: OLMo 3: Open Models, Open Data, Open Science – Allen Institute for AI

Model Flow: 결과가 아닌 과정을 공개하다

기존 오픈 모델들의 한계는 명확합니다. 가중치 파일은 받을 수 있지만, 그 모델이 왜 이런 답변을 하는지, 어떤 데이터에서 학습했는지 알 수 없죠. 도메인 특화 지식을 통합하거나 모델을 개선하려면 개발 파이프라인 깊숙이 개입해야 하는데, 최종 단계만 접근 가능하면 의미 있는 수정이 불가능합니다.

OLMo 3의 Model Flow는 이 문제를 정면돌파합니다. 사전학습(Pretraining) → 중간학습(Midtraining) → 긴 컨텍스트 확장 → 후처리(Post-training)까지 모든 단계의 체크포인트와 데이터셋을 공개했어요. 연구자들은 원하는 지점에서 개발 과정에 개입할 수 있습니다. 중간학습 단계에서 자신의 도메인 데이터를 투입하거나, 이전 체크포인트에서 새로운 후처리 전략을 실험하는 식이죠.

더 흥미로운 건 세 가지 서로 다른 개발 경로를 제시한다는 점입니다. 일상적인 채팅과 도구 사용에 최적화된 Instruct 경로, 기본 모델에서 강화학습 실험을 할 수 있는 RL Zero 경로, 그리고 복잡한 추론을 위한 Think 경로. 각각은 동일한 Base 모델에서 시작하지만 전혀 다른 목적을 위해 발전합니다. 이 Flow 자체가 재사용 가능한 객체가 되는 셈이죠.

성능: 완전 오픈 중 최고 수준

투명성만 강조하고 성능이 약하다면 의미가 없겠죠. 하지만 OLMo 3는 실제로 강력합니다.

OLMo 3-Base (32B)는 완전히 오픈된 모델(학습 데이터, 코드, 가중치 모두 공개) 중에서 가장 강력한 기본 모델입니다. 프로그래밍, 독해, 수학 문제 해결에서 Stanford의 Marin이나 Swiss AI의 Apertus 같은 경쟁 모델들을 능가하며, Qwen 2.5나 Gemma 3 같은 가중치만 공개된 모델들과도 경쟁합니다. 특히 긴 맥락(최대 65K 토큰)에서도 성능이 유지되고요.

OLMo 3-Think (32B)는 완전 오픈 추론 모델 중 최강자입니다. MATH 벤치마크에서 96.1점으로 Qwen 3 32B(95.4점)를 근소하게 앞서며, 전체적으로 Qwen 3 VL 32B Thinking과 어깨를 나란히 합니다. 놀라운 건 Qwen보다 약 6배 적은 토큰으로 학습했다는 점이에요. 코딩 추론에서는 HumanEvalPlus에서 91.4점으로 거의 최고 수준이고, 명령 수행(IFEval)에서는 89.0점으로 비교 대상 중 1위입니다.

7B 규모의 OLMo 3-Instruct도 Qwen 2.5, Gemma 3, Llama 3.1 같은 유명 모델들과 동등하거나 더 나은 성능을 보이며, 도구 사용과 대화에 특화돼 있습니다.

9.3조 토큰의 완전 공개 데이터셋

성능 뒤에는 방대한 데이터가 있습니다. OLMo 3는 Dolma 3라는 9.3조 토큰 규모의 새 데이터셋으로 사전학습됐습니다. 웹페이지, 과학 PDF(olmOCR로 처리), 코드베이스, 수학 문제, 백과사전 텍스트까지 망라하죠. 여기서 5.9조 토큰을 선별해 Dolma 3 Mix를 구성했고, 이전 버전보다 코딩과 수학 데이터 비중을 대폭 늘렸습니다.

중간학습 단계에서는 Dolma 3 Dolmino(1000억 토큰)를 사용해 수학, 과학, 코드, 추론 능력을 강화했고, 긴 맥락 처리를 위해서는 Dolma 3 Longmino(500억 토큰)로 보고서나 긴 문서를 학습시켰습니다.

후처리 데이터도 새롭게 공개됐습니다. Dolci는 추론, 도구 사용, 명령 수행에 특화된 데이터 모음으로, SFT(지도 미세조정), DPO(선호도 최적화), RLVR(검증 가능한 보상 기반 강화학습) 각 단계별로 최적화된 데이터셋을 제공합니다.

모든 데이터셋은 허용적 라이선스 하에 다운로드 가능합니다. 연구자들은 OLMo 3의 학습 곡선을 재현하거나, 자신만의 데이터 믹스로 ablation 연구를 수행할 수 있습니다.

투명성의 실질적 의미: OlmoTrace

진정한 차별점은 OlmoTrace입니다. 이 도구를 사용하면 모델의 출력을 실시간으로 학습 데이터까지 역추적할 수 있습니다. 예를 들어 OLMo 3-Think에게 일반 상식 질문을 하면, 그 답변의 특정 부분이 어떤 학습 데이터에서 왔는지 확인할 수 있죠.

단순히 “이 모델이 이렇게 답했다”를 넘어 “왜 이렇게 답했는가”까지 볼 수 있습니다. 학습 데이터와 모델 행동 사이의 간극이 사라지는 거예요. 이는 데이터 선택이나 학습 전략을 조정하는 데 직접적으로 활용됩니다.

Allen AI는 데이터 처리 도구도 모두 오픈소스로 공개했습니다. 오염 제거, 토큰화, 중복 제거를 OLMo 3와 똑같은 방식으로 수행할 수 있는 툴킷들이죠. Olmo-core(분산 학습), Open Instruct(후처리), datamap-rs(대규모 정제), duplodocus(퍼지 중복 제거), OLMES(재현 가능한 평가) 등이 포함됩니다.

32B가 스위트 스팟인 이유

OLMo 팀이 32B 규모에 집중한 건 전략적 선택입니다. 충분히 강력하면서도 일반 연구자들이 접근 가능한 크기죠. 최신 GPU 클러스터가 없어도 파인튜닝하고 배포할 수 있습니다.

실제로 Allen AI는 최대 1024개 H100 GPU로 사전학습을 진행했지만, 중간학습은 128개, 후처리는 256개로 가능했습니다. 효율성 개선도 눈에 띕니다. SFT를 Olmo Core로 옮겨 처리량을 8배 높였고, 강화학습 학습은 in-flight weight updates와 continuous batching으로 4배 빨라졌어요.

검증 가능한 AI를 향해

Allen AI는 “진정한 개방성은 접근성이 아니라 신뢰, 책임, 공유된 진보”라고 말합니다. 우리 미래를 형성하는 모델들은 블랙박스가 아니라 완전히 검증 가능해야 한다는 거죠.

OLMo 3는 다른 길을 제시합니다. 가중치만 공개하는 게 아니라, AI 시스템을 책임감 있게 발전시키는 데 필요한 완전한 지식을 공유하는 것. 연구자는 모든 학습 단계에서 실험을 수행할 수 있고, 개발자는 자신의 프로젝트에 맞게 어느 지점에서든 활용할 수 있으며, 누구나 모델의 작동 원리를 이해하고 검증하고 개선할 수 있습니다.

이게 바로 ‘open-first’의 진짜 의미입니다. 단순한 공개가 아니라, Flow 자체를 공유하는 것이죠.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다