Bonsai 8B 등장, 1.15GB로 아이폰에서 돌아가는 8B급 성능의 비밀

AI가 강력해질수록 더 큰 서버, 더 많은 전력, 더 두꺼운 지갑이 필요해졌습니다. 그런데 Caltech 연구에서 출발한 스타트업 PrismML이 이 흐름에 정면으로 도전했습니다.

사진 출처: PrismML

PrismML이 지난 3월 31일 1-bit LLM ‘Bonsai 8B’를 공개했습니다. 82억 개의 파라미터를 담은 이 모델의 메모리 용량은 단 1.15GB, 아이폰 17 Pro에서 초당 40토큰 속도로 실행됩니다. 동급 16-bit 모델 대비 14배 작고, 8배 빠르며, 에너지 효율은 4~5배 높으면서도 벤치마크 성능은 비슷한 수준을 유지합니다.

출처: Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs – PrismML

1-bit LLM은 처음이 아닙니다

이 분야를 먼저 개척한 건 Microsoft입니다. 2023년 BitNet 논문으로 1-bit 학습 기반 아키텍처 개념을 처음 제시했고, 2024년에는 BitNet b1.58을 통해 가중치를 {-1, 0, +1} 세 가지 값으로 표현하는 방식을 선보였습니다. 2025년 4월에는 20억 파라미터 규모의 오픈소스 모델도 공개했습니다.

그런데 선행 연구들은 공통적인 한계에 부딪혔습니다. 비트 수를 줄이면 줄일수록 지시 따르기, 다단계 추론, 도구 사용 능력이 함께 떨어지는 문제였습니다. 저비트 모델은 이론적으로는 매력적이지만, 실제 제품에 쓰기에는 부족했습니다.

PrismML은 이 지점을 정면 돌파했다고 주장합니다. 회사 스스로 “첫 번째 상업적으로 실용 가능한 1-bit LLM”이라고 부르는 이유도 여기에 있습니다.

뭐가 다른가 — 진짜 1-bit의 의미

Microsoft BitNet b1.58은 가중치에 0을 포함한 세 가지 값({-1, 0, +1})을 씁니다. 사실상 1.58비트입니다. Bonsai는 0을 완전히 없애고 {-1, +1}만 사용하는 순수 1-bit 구조이며, 임베딩부터 어텐션, MLP, 출력 레이어까지 전체가 예외 없이 1-bit입니다.

이 구조의 핵심 장점은 연산 방식의 변화입니다. 일반 모델에서 추론의 대부분을 차지하는 행렬 곱셈은 부동소수점 연산이 필요합니다. 그런데 가중치가 ±1뿐이라면, 곱셈이 사실상 덧셈으로 대체됩니다. 현재 하드웨어는 부동소수점 연산에 최적화되어 있어 이 이점이 완전히 발휘되진 않지만, 이미 메모리 축소 효과만으로도 속도와 에너지 효율에서 큰 차이가 납니다.

중요한 것은 이 모델이 기존 모델을 압축한 게 아니라는 점입니다. 처음부터 1-bit 구조로 학습했습니다. CEO 바바크 하시비는 “추론 능력을 잃지 않고 신경망을 압축하는 수학적 이론을 개발하는 데 수년을 보냈다”고 밝혔습니다.

인텔리전스 밀도 — 새로운 기준

PrismML은 ‘인텔리전스 밀도(intelligence density)’라는 새로운 지표를 제안합니다. 모델 크기(GB) 대비 얼마나 많은 지능을 담고 있는지를 측정하는 개념입니다. 구체적으로는 벤치마크 평균 오류율의 로그값을 모델 크기로 나눈 값입니다.

이 기준으로 보면 Bonsai 8B는 1.06/GB, Qwen3 8B는 0.10/GB입니다. 벤치마크 원점수에서는 Qwen3 8B가 근소하게 앞서지만, 크기 대비 성능에서는 10배 이상 차이가 납니다.

물론 자체 제안 지표이기 때문에 비판적으로 볼 여지는 있습니다. 다만 “더 크면 더 똑똑하다”는 기존 기준에 대한 문제 제기로서는 의미가 있습니다.

클라우드 밖으로

PrismML이 이 모델로 노리는 건 클라우드 의존도를 낮추는 것입니다. 1.15GB짜리 8B 모델이 아이폰에서 돌아간다는 건, 지금까지 클라우드 서버 없이는 불가능하던 수준의 AI 추론이 기기 내에서 가능해진다는 뜻입니다. 개인정보가 기기 밖으로 나가지 않아도 되고, 인터넷 연결 없이도 작동하며, 서버 비용도 줄어듭니다.

회사는 온디바이스 에이전트, 실시간 로보틱스, 오프라인 환경, 보안이 중요한 기업 환경을 주요 적용 분야로 꼽습니다. 1-bit 전용 하드웨어가 등장하면 성능과 효율이 한 단계 더 올라갈 수 있다는 전망도 덧붙입니다.

세 가지 모델(8B, 4B, 1.7B) 모두 Apache 2.0 라이선스로 공개되어 Hugging Face와 GitHub에서 바로 사용할 수 있습니다. 기술적 세부 내용은 공식 백서(PDF)에서 확인할 수 있습니다.

참고자료:

PrismML debuts 1-bit LLM in bid to free AI from the cloud – The Register
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits – Microsoft Research

Like?

AI Sparkup

Bonsai 8B 등장, 1.15GB로 아이폰에서 돌아가는 8B급 성능의 비밀

1-bit LLM은 처음이 아닙니다

뭐가 다른가 — 진짜 1-bit의 의미

인텔리전스 밀도 — 새로운 기준

클라우드 밖으로

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Bonsai 8B 등장, 1.15GB로 아이폰에서 돌아가는 8B급 성능의 비밀

Cursor 3, 에이전트 함대 시대의 IDE를 다시 설계하다

코딩 에이전트 시대, 개발자가 더 피곤해진 이유

AI가 보험금 심사를 맡으면, 환자의 치료는 누가 지키나