메타(Meta)가 지난 주말, 예고 없이 차세대 AI 모델 ‘라마 4(Llama 4)’를 출시하며 인공지능 업계에 큰 화제를 불러일으켰습니다. 메타는 이번 Llama 4를 통해 기존 AI 모델의 한계를 뛰어넘는 혁신적인 성능을 약속했지만, 초기 사용자들의 반응은 기대에 미치지 못하는 것으로 나타나고 있습니다. 오늘 블로그에서는 Llama 4의 주요 특징과 출시 이후 드러난 문제점들을 살펴보며, AI 기술의 선전과 실제 성능 사이에 존재하는 간극에 대해 분석해 보겠습니다.
Llama 4의 주요 특징과 혁신
이미지 출처: Meta AI 공식 블로그
메타가 공개한 Llama 4는 두 가지 모델로 구성되어 있습니다:
- Llama 4 Scout: 16개의 전문가 시스템으로 구성된 109B 총 파라미터(활성 파라미터는 17B)를 가진 모델로, 단일 H100 GPU에서 실행 가능하며 무려 1,000만 토큰의 컨텍스트 윈도우를 지원한다고 발표했습니다.
- Llama 4 Maverick: 128개의 전문가 시스템으로 구성된 400B 총 파라미터(활성 파라미터는 17B)를 가진 모델로, GPT-4o와 Gemini 2.0 Flash보다 여러 카테고리에서 더 나은 성능을 보인다고 주장합니다.
메타는 또한 아직 공개하지 않은 Llama 4 Behemoth라는 초대형 모델도 언급했는데, 이는 16개의 전문가 시스템으로 구성된 288B 활성 파라미터와 2조 개의 총 파라미터를 가진 모델로, STEM 벤치마크에서 GPT-4.5를 능가한다고 주장합니다.
혼합 전문가 아키텍처(MoE)의 활용
Llama 4의 가장 큰 기술적 특징은 ‘혼합 전문가 아키텍처(Mixture-of-Experts, MoE)’를 채택했다는 점입니다. 이 아키텍처는 대규모 AI 모델 운영의 한계를 극복하기 위한 방법 중 하나로, 전체 파라미터 중 일부만 특정 작업에 활성화시키는 방식입니다.
예를 들어, Llama 4 Maverick는 400B 파라미터를 가지고 있지만, 실제 작업 시에는 128개의 전문가 중 하나가 선택되어 17B 파라미터만 활성화됩니다. 마찬가지로 Scout도 109B 총 파라미터 중 16개의 전문가에 걸쳐 17B 파라미터만 활성화됩니다. 이러한 설계는 신경망 가중치의 작은 부분만 동시에 활성화되므로 모델 실행에 필요한 계산량을 줄일 수 있습니다.
멀티모달 기능과 긴 컨텍스트 윈도우
Llama 4 모델은 텍스트와 이미지를 모두 처리할 수 있는 멀티모달 기능을 기본적으로 지원합니다. 메타는 텍스트와 비전 토큰을 하나의 모델 백본으로 통합하기 위한 초기 융합 기술의 발전을 강조했습니다.
특히 Scout는 이미지 내 특정 영역과 사용자 프롬프트를 정확히 연결하여 질문에 답변할 수 있는 최첨단 이미지 그라운딩 기능을 갖추고 있다고 합니다.
가장 주목할만한 점은 Scout의 1,000만 토큰 컨텍스트 윈도우인데, 이는 업계 최초라고 메타는 주장합니다. 이런 방대한 컨텍스트는 긴 문서, 대규모 코드베이스, 장시간 대화 등을 처리하는 데 혁신적인 변화를 가져올 수 있습니다.
현실과의 괴리: 기대와 실제 성능 간의 간극
이미지 출처: Meta AI 공식 블로그
메타의 화려한 발표와 달리, 초기 사용자들의 피드백은 기대에 미치지 못하는 실망스러운 반응이 주를 이루고 있습니다. 특히 세 가지 핵심 영역에서 문제점이 지적되고 있습니다:
1. 컨텍스트 윈도우 제한
Scout의 1,000만 토큰 컨텍스트 윈도우는 메타의 가장 큰 홍보 포인트 중 하나였습니다. 그러나 개발자들은 그 용량의 일부조차 사용하는 것이 메모리 제한으로 인해 어렵다는 것을 발견했습니다.
Simon Willison은 자신의 블로그에서 Groq와 Fireworks 같은 서드파티 서비스가 Scout의 컨텍스트를 단 12만 8천 토큰으로 제한하고 있다고 보고했습니다. 또 다른 제공업체인 Together AI는 32만 8천 토큰을 제공했습니다.
더 큰 컨텍스트에 접근하려면 엄청난 자원이 필요하다는 증거가 있습니다. 메타 자체의 예제 노트북(“build_with_llama_4”)에 따르면, 140만 토큰 컨텍스트를 실행하려면 8개의 고급 Nvidia H100 GPU가 필요합니다. 이는 개인 사용자는 물론 대부분의 기업에게도 현실적으로 접근하기 어려운 수준입니다.
2. 추론 및 코딩 성능 부족
커뮤니티 피드백에 따르면, Llama 4는 추론, 코딩, 긴 컨텍스트 이해와 같은 영역에서 기대에 미치지 못하는 성능을 보이고 있습니다. 벤치마크에서 좋은 성적을 거두었다는 주장에도 불구하고, 실제 사용 환경에서는 다른 모습을 보여주고 있는 것입니다.
Simon Willison은 OpenRouter 서비스를 통해 Llama 4 Scout에게 긴 온라인 토론(약 2만 토큰)을 요약해 달라고 요청했을 때, 결과물이 “완전한 쓰레기 출력”이었고 반복적인 루프로 이어졌다고 설명했습니다. 이는 긴 컨텍스트 처리 능력에 대한 회의적인 시각을 더해줍니다.
3. 하드웨어 요구사항
Llama 4 모델은 소비자 GPU에서는 양자화를 통해서도 실행할 수 없는 거대한 MoE 모델입니다. 아이반 피오라반티에 따르면, Mac의 M3 Ultra에서 Llama 4 Scout를 실행할 때 다음과 같은 RAM이 필요합니다:
- 3비트: 64GB
- 4비트: 96GB
- 8비트: 128GB
- fp16: 256GB
이는 일반 소비자가 접근하기 어려운 수준의 하드웨어 요구사항입니다.
Llama 4에 대한 기대와 전망
메타의 Llama 모델은 과거 버전에서 점진적으로 개선되어 왔습니다. Llama 3는 처음에 8B와 70B 모델로 출시되었고, 이후 Llama 3.1에서 405B 모델이 추가되었으며, Llama 3.2에서는 더 작은 1B, 3B 모델이 추가되어 모바일 기기에서도 실행 가능해졌습니다.
현재 Llama 4는 109B와 400B 모델로만 출시되었지만, 앞으로 더 다양한 크기의 모델이 나올 것으로 예상됩니다. 특히 스마트폰에서 실행 가능한 개선된 3B 모델이나, 64GB 노트북에서 다른 애플리케이션과 함께 실행할 수 있는 22-24B 크기의 모델 출시가 기대됩니다.
결론: AI 홍보와 현실 사이의 균형
메타의 Llama 4 출시는 AI 기술의 진보를 보여주는 중요한 사례이지만, 동시에 기술 홍보와 실제 성능 사이의 격차를 보여주는 교훈이기도 합니다. 10M 토큰이라는 인상적인 숫자는 현실에서는 대부분의 사용자에게 실질적인 이점을 제공하지 못하고 있으며, 벤치마크 성능이 실제 사용 경험으로 직결되지 않는다는 것을 다시 한번 확인시켜 줍니다.
AI 기술이 발전함에 따라 우리는 이러한 기술적 선전을 비판적으로 평가하고, 실제 사용자 경험과 접근성을 고려하는 균형 잡힌 시각이 필요합니다. 메타가 앞으로 Llama 4의 문제점을 해결하고 더 실용적인 버전을 출시할 수 있기를 기대해 봅니다.
메타의 Ahmed Al-Dahle은 “모델이 준비되자마자 출시했기 때문에 모든 공개 구현이 제대로 조정되기까지 며칠이 걸릴 것으로 예상합니다. 우리는 버그 수정과 파트너 온보딩을 계속 진행할 것입니다.”라고 언급했습니다. 이는 초기 문제점들이 시간이 지남에 따라 개선될 수 있음을 시사합니다.
인공지능 기술의 빠른 발전 속도를 고려할 때, Llama 4가 현재 직면한 어려움을 어떻게 극복해 나갈지, 그리고 메타가 다음 버전에서 어떤 개선을 이룰지 주목할 필요가 있습니다.
참고자료:
Comments