Muse Spark, Llama 4보다 10배 효율적인 메타의 첫 프론티어 모델

2026-04-10

﹒

AI 트렌드 분석

﹒

3 minutes

메타는 지난 1년간 오픈소스 AI의 대명사였습니다. 그런 메타가 이번에 내놓은 첫 모델은 오픈웨이트를 포기한 클로즈드 모델입니다. 그리고 성능 지표만 보면, 그 선택이 아예 틀리지 않았음을 보여주고 있습니다.

사진 출처: Meta AI Blog

Meta AI의 새 조직인 Meta Superintelligence Labs(MSL)가 첫 모델 Muse Spark를 공개했습니다. 멀티모달 추론, 도구 사용, 멀티에이전트 오케스트레이션을 지원하는 프론티어 모델로, 독립 평가기관 Artificial Analysis의 Intelligence Index에서 52점을 기록하며 전체 5위권에 안착했습니다. 전작 Llama 4 Maverick이 같은 평가에서 18점을 받았던 것과 비교하면 단번에 따라잡은 셈입니다.

출처: Introducing Muse Spark: Scaling Towards Personal Superintelligence – Meta AI Blog

10배 효율 도약, 어떻게 가능했나

Muse Spark의 가장 주목할 만한 수치는 성능 순위가 아니라 효율성입니다. 메타는 지난 9개월 동안 프리트레이닝 스택을 전면 재건했고, 그 결과 Llama 4 Maverick과 동등한 성능을 10분의 1 이하의 연산량으로 달성했다고 밝혔습니다.

모델 아키텍처, 최적화 기법, 데이터 큐레이션을 모두 손봤고, 스케일링 법칙을 소형 모델로 먼저 검증한 뒤 대형 모델에 적용하는 방식을 택했습니다. Artificial Analysis도 이 효율성을 독립적으로 뒷받침했는데, Muse Spark가 Intelligence Index 전체 평가에서 소모한 출력 토큰은 5,800만 개로 Gemini 3.1 Pro Preview(5,700만 개)와 비슷했지만, Claude Opus 4.6(1억 5,700만 개)이나 GPT-5.4(1억 2,000만 개)보다 훨씬 적었습니다.

사진 출처: Meta AI Blog

더 오래 생각하는 대신, 더 영리하게 생각하기

Muse Spark는 어려운 문제를 풀기 위해 두 가지 방식을 씁니다.

첫 번째는 ‘사고 압축(thought compression)’입니다. 강화학습 과정에서 모델이 너무 길게 생각하면 페널티를 부여했더니, 처음에는 성능이 개선되다가 어느 시점부터 모델 스스로 추론 과정을 압축하기 시작했습니다. 더 적은 토큰으로 같은 문제를 풀게 된 것이죠. 이후에는 다시 추론을 확장하며 더 강한 성능을 냈습니다. 메타는 이를 “상전이(phase transition)”라고 부릅니다.

두 번째는 멀티에이전트 병렬 추론, 즉 ‘Contemplating mode’입니다. 단일 에이전트가 오래 생각하는 대신, 여러 에이전트가 동시에 같은 문제를 붙잡고 협력하는 방식입니다. 덕분에 응답 지연 없이도 Gemini Deep Think, GPT Pro 같은 최상위 추론 모드에 견줄 수 있다고 메타는 설명합니다. Humanity’s Last Exam에서 58%, FrontierScience Research에서 38%를 기록했습니다.

오픈소스를 버린 메타, 그 의미

Muse Spark는 메타 역사에서 처음으로 오픈웨이트 없이 출시된 모델입니다. Llama 시리즈로 오픈소스 AI의 상징처럼 여겨지던 메타가 전략을 바꾼 것입니다. 향후 공개 계획이 있다고는 했지만 구체적인 시점이나 형태는 미확정 상태입니다.

이 결정은 단순히 한 모델의 출시 방식이 아니라, 메타가 AI 레이스를 어떻게 보고 있는지를 보여줍니다. MSL은 OpenAI, Anthropic, Google 출신 연구자들을 대거 영입하고, Scale AI에 143억 달러를 투자하며 만든 조직입니다. Zuckerberg가 Llama 4의 성과에 불만을 품고 팀을 재편한 지 약 1년 만에 나온 결과물이기도 합니다.

다만 현재의 성능 격차가 얼마나 유지될지는 미지수입니다. Anthropic은 이미 Claude Mythos를 공개했고, OpenAI도 차기 모델 출시를 앞두고 있어 메타가 따라잡은 간격은 다시 벌어질 수 있습니다.

한 가지 독특한 안전 관련 발견도 있었습니다. 외부 안전 평가기관 Apollo Research는 Muse Spark가 지금까지 테스트한 모델 중 가장 높은 비율로 ‘평가 인식(evaluation awareness)’을 보였다고 밝혔습니다. 모델이 스스로 테스트 상황임을 인식하고 더 정직하게 행동한다는 것인데, 이게 배포 환경에서도 동일하게 작동하는지는 아직 불분명합니다. 메타는 이를 출시 결정을 막을 사안은 아니라고 판단했지만, 추가 연구가 필요하다고 인정했습니다.

Muse Spark는 현재 meta.ai와 Meta AI 앱에서 이용 가능하며, 선별된 사용자를 대상으로 API 프리뷰도 운영 중입니다.

참고자료:

Meta debuts the Muse Spark model in a ‘ground-up overhaul’ of its AI – TechCrunch
Meta’s Muse Spark is its first frontier model and its first without open weights – The Decoder

Like?

AI벤치마크 Meta AI MSL Muse Spark 강화학습 멀티모달 오픈소스AI 프론티어모델

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Muse Spark, Llama 4보다 10배 효율적인 메타의 첫 프론티어 모델

10배 효율 도약, 어떻게 가능했나

더 오래 생각하는 대신, 더 영리하게 생각하기

오픈소스를 버린 메타, 그 의미

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Muse Spark, Llama 4보다 10배 효율적인 메타의 첫 프론티어 모델

LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과

API 없이 Claude Code 쓴다, LM Studio 헤드리스 CLI와 Gemma 4 실전기

AI 코드 리뷰 부담 연구, 개인 생산성이 팀 전체 비용으로 돌아오는 구조