AI평가
다국어 LLM 안전장치의 허점, 영어엔 되고 파르시어엔 안 된다
AI 안전장치가 영어와 비영어권에서 36~53% 점수 차이를 보인다는 Mozilla 연구. 가드레일을 검사하는 도구마저 같은 편향을 가진 구조적 문제를 분석합니다.
Written by

Chatbot Arena 1위 모델, 단 2표로 바뀐다는 MIT 연구 결과
MIT 연구진이 발견한 LLM 랭킹 플랫폼의 충격적 취약성. 57,000표 중 단 2표만 제거해도 1위 모델이 바뀌는 현상과 그 의미를 분석합니다.
Written by

Grok 4.1, LMArena 1위 등극: AI 경쟁이 ‘감성’으로 옮겨간 이유
xAI의 Grok 4.1이 LMArena 1위를 차지했습니다. 성능이 아닌 감성지능과 신뢰성으로 차별화한 전략과 AI 경쟁의 새로운 방향을 분석합니다.
Written by

GPT-5 패밀리, RAG에서도 통할까? – 새로운 모델들의 실전 성능 평가
GPT-5 모델 패밀리의 RAG 시스템 성능을 실제 데이터로 평가한 결과와 실무 적용 가이드. 특히 할루시네이션 감소와 “모르겠다”고 답변하는 능력 향상에 주목한 종합 분석입니다.
Written by

