Command A+는 Cohere가 공개한 오픈소스 엔터프라이즈 LLM이다. 218B total parameter, 25B active parameter의 sparse MoE 구조를 사용하며, Apache 2.0 라이선스로 Hugging Face에 공개됐다. Cohere는 이 모델을 sovereign AI와 기업 에이전트 워크플로에 맞춘 “로컬 배포 가능한 고성능 모델”로 포지셔닝한다.
모델 스펙
| 항목 | 내용 |
|---|---|
| 모델 ID | command-a-plus-05-2026 |
| 라이선스 | Apache 2.0 |
| 아키텍처 | Sparse MoE |
| 크기 | 218B total, 25B active |
| 컨텍스트 | 128K input, 64K max generation |
| 입력 | 텍스트, 이미지, tool use |
| 출력 | 텍스트, reasoning, tool use |
| 언어 | 48개 언어 |
| 최적화 | reasoning, agentic workflows, RAG, multilingual, multimodal document processing |
| 프레임워크 | vLLM, Transformers |
| 최소 하드웨어 | W4A4 기준 2×H100 또는 1×B200 |
Command A 계열 통합
Command A+는 기존 Command A Reasoning, Vision, Translate 계열의 기능을 하나로 통합하는 방향이다. Cohere가 강조한 변화는 다음이다.
- reasoning과 tool use 동시 지원
- multimodal document understanding 강화
- 다국어 범위 23개에서 48개로 확대
- 기업 RAG와 agentic question answering 성능 개선
- North 워크스페이스에서 메모리·스프레드시트 분석 품질 개선
효율성
엔터프라이즈 자체 호스팅에서 중요한 것은 최고 벤치마크 점수만이 아니다. GPU 수, latency, 전력, serving 비용이 실제 도입 가능성을 결정한다.
Command A+는 BF16, FP8, W4A4 quantization으로 제공된다. Cohere는 W4A4에서 품질 손실을 거의 체감하기 어렵고, 2×H100 또는 1×B200에서 실행 가능하다고 설명한다.
또한 MoE 구조와 speculative decoding을 결합해 이전 dense Command A Reasoning 대비 출력 토큰 처리량과 TTFT를 개선했다고 밝혔다. 한국어·일본어·아랍어 등 비유럽 언어의 tokenizer 효율 개선도 비용 절감 포인트다.
어떤 팀에 맞는가
- 클라우드 API만 쓰기 어려운 규제 산업
- 자체 VPC·온프레미스에서 agentic RAG를 운영하려는 기업
- 다국어 문서 처리와 tool use가 동시에 필요한 워크플로
- Apache 2.0 라이선스의 강력한 오픈 모델을 찾는 플랫폼 팀
개인 로컬 모델이라기보다는, 소수의 고성능 GPU에서 엔터프라이즈 에이전트 서비스를 자체 운영하려는 조직에 맞다.
관련 문서
- local-slm — 개인 장비에서 실행하는 소형 언어 모델
- kimi — 장기 코딩·에이전트 스웜에 특화된 오픈 모델
- qwen — Alibaba Cloud의 오픈소스 LLM 시리즈
- together-ai — 오픈소스 모델 실행·파인튜닝·배포 플랫폼
참고 자료
- Introducing Command A+ — Cohere Blog (2026-05-20)