MoE
Qwen3.5, 397B MoE 아키텍처로 네이티브 멀티모달 에이전트 시대 열다
Alibaba가 공개한 Qwen3.5는 397B 파라미터 MoE 모델로, 추론 시 17B만 활성화해 비용을 낮추고 네이티브 멀티모달과 에이전트 특화 훈련을 결합했습니다.
Written by

GLM-5 등장, 744B 파라미터 오픈소스 모델이 에이전트 벤치마크 1위
Z.ai가 744B 파라미터 오픈소스 모델 GLM-5를 공개했습니다. DeepSeek 기술을 통합해 에이전트 작업에 특화된 성능을 보여줍니다.
Written by

Qwen3-Coder-Next 출시, 3B 활성 파라미터로 코딩 에이전트 시장 진입
Alibaba Qwen 팀이 코딩 에이전트 특화 모델 Qwen3-Coder-Next를 출시했습니다. 80B 파라미터 중 3B만 활성화하는 희소 MoE 구조로 비용 효율성과 성능을 동시에 달성했습니다.
Written by

NVIDIA, 에이전트 AI 특화 모델 Nemotron 3 공개: 10조 토큰 데이터까지 오픈소스로
NVIDIA가 에이전트 AI에 특화된 Nemotron 3 모델을 공개하며 10조 토큰 학습 데이터까지 오픈소스로 제공. 칩 회사의 전략적 변신과 오픈소스 AI 생태계의 새로운 국면을 소개합니다.
Written by

Miles 프레임워크 공개: 355B MoE 모델 훈련에 쓰인 실전 RL 도구
LMSYS가 355B MoE 모델 훈련에 실제 사용된 엔터프라이즈급 RL 프레임워크 Miles를 공개. 25% 추론 속도 향상과 True on-policy 구현이 핵심입니다.
Written by

OpenAI gpt-oss: GPT-2에서 오픈소스 추론 모델까지의 기술 진화 여정
OpenAI의 첫 오픈소스 추론 모델 gpt-oss의 기술적 혁신과 활용 방법을 GPT-2와 비교 분석하여 소개하는 실용 가이드
Written by

알리바바의 Qwen3: ‘생각하는’ AI의 새로운 시대를 열다
알리바바가 출시한 Qwen3 시리즈는 ‘생각하기’와 ‘생각하지 않기’ 모드를 결합한 하이브리드 추론 방식을 도입한 최초의 AI 모델입니다. 이 글에서는 Qwen3 모델의 핵심 특징, MoE 아키텍처, 119개 언어 지원, 실제 활용 방법 및 AI 생태계에 미치는 영향을 알아봅니다.
Written by

DeepSeek V3-0324: 코드 생성 능력과 추론 성능이 대폭 향상된 최신 오픈소스 LLM
중국 AI 연구소 DeepSeek이 개발한 DeepSeek V3-0324는 700줄의 코드를 오류 없이 생성하고 이전보다 향상된 추론 능력과 웹 개발 성능을 제공하는 최신 오픈소스 AI 모델입니다. 이 기사에서는 모델의 주요 개선 사항, 기술적 특징, 그리고 실제 활용 사례를 탐색합니다.
Written by


