벤치마크
-
DeepSeek R1-0528: 성능 향상 뒤에 숨겨진 검열 강화의 딜레마
중국 DeepSeek의 새로운 R1-0528 모델이 OpenAI o3와 Gemini 2.5 Pro에 도전하며 오픈소스 AI의 새로운 가능성을 제시한 기술 분석과 업계 트렌드 전망
Written by
-
OpenAI의 o3·o4-mini: 뛰어난 능력과 새로운 도전 사이의 균형
OpenAI의 새로운 o3와 o4-mini 모델은 코딩, 수학, 다중모달 추론에서 뛰어난 성능을 보이지만, 환각 현상이 증가하고 벤치마크 성능에 논란이 있습니다. 이 글은 이러한 모델의 강점과 한계, 그리고 AI 발전의 새로운 방향성에 대해 분석합니다.
Written by
-
HELMET: 장문맥 AI 모델의 능력을 정확하게 측정하는 새로운 벤치마크
프린스턴 대학 연구팀이 개발한 HELMET 벤치마크를 통해 장문맥 언어 모델(LCLMs)의 능력을 정확하게 평가하는 방법과 최신 모델들의 장단점에 대해 알아봅니다.
Written by