벤치마크
-
OpenAI의 o3·o4-mini: 뛰어난 능력과 새로운 도전 사이의 균형
OpenAI의 새로운 o3와 o4-mini 모델은 코딩, 수학, 다중모달 추론에서 뛰어난 성능을 보이지만, 환각 현상이 증가하고 벤치마크 성능에 논란이 있습니다. 이 글은 이러한 모델의 강점과 한계, 그리고 AI 발전의 새로운 방향성에 대해 분석합니다.
Written by
-
HELMET: 장문맥 AI 모델의 능력을 정확하게 측정하는 새로운 벤치마크
프린스턴 대학 연구팀이 개발한 HELMET 벤치마크를 통해 장문맥 언어 모델(LCLMs)의 능력을 정확하게 평가하는 방법과 최신 모델들의 장단점에 대해 알아봅니다.
Written by