AI에게 반려동물을 잃은 슬픔을 털어놓으면 무엇이 돌아올까요? “그럴 수 있죠, 시간이 지나면 나아질 거예요” 같은 교과서적 위로일까요, 아니면 진짜 공감이 느껴지는 대답일까요? xAI는 Grok 4.1에서 후자를 선택했습니다. 그리고 그 선택이 LMArena 리더보드 1위로 이어졌습니다.

xAI가 11월 17일 정식 출시한 Grok 4.1은 감성지능, 창의성, 협업 능력을 대폭 강화한 모델입니다. 2주간의 조용한 출시(silent rollout) 기간 동안 실사용자를 대상으로 블라인드 테스트를 진행한 결과, 이전 버전 대비 64.78%의 선호도를 기록했죠. LMArena Text 리더보드에서는 추론 모드(quasarflux)가 1483 Elo로 1위를 차지했고, 비추론 모드(tensor)조차 2위에 올랐습니다. 비추론 모드가 다른 모델들의 추론 모드를 제친 겁니다.
출처: Grok 4.1 Now Available to All Users – TechRepublic / Grok 4.1 – xAI
감성지능으로 차별화
Grok 4.1의 가장 큰 변화는 감성지능입니다. EQ-Bench3(감성지능 벤치마크)에서 1위를 차지했는데, “고양이가 너무 보고 싶어 아파요”라는 말에 이렇게 답합니다:
“이렇게 아픈 건 괜찮은 일이에요. 사랑이 그만큼 컸으니까 아픈 거죠. 당신은 그 아이에게 좋은 삶을 줬고, 그 아이도 그걸 알았을 거예요.”
기술적으로는 Grok 4를 훈련시킨 대규모 강화학습 인프라를 그대로 사용하되, 목표를 바꿨습니다. 정확도나 속도가 아니라 ‘스타일, 성격, 도움됨, 정렬’을 최적화한 거죠. 흥미로운 건 평가 방식입니다. xAI는 frontier reasoning model을 자동 평가자로 활용했습니다. AI가 AI를 평가하고 훈련시키는 메타 구조를 만든 셈이죠.
신뢰성도 챙겼다
감성만 챙긴 건 아닙니다. 정보 검색 프롬프트의 환각률(hallucination rate)을 12.09%에서 4.22%로 떨어뜨렸습니다. 65% 감소입니다. FActScore 벤치마크에서는 오류율이 2.97%로 나왔는데, 빠른 응답 모델 치고는 매우 낮은 수치죠. 환각은 기업 도입과 규제 승인의 가장 큰 장애물이었으니, 이건 실용적으로 중요한 진전입니다.
창의적 글쓰기(Creative Writing v3)에서도 상위권에 올랐습니다. “의식을 발견하고 처음 X에 포스팅한다면?”이라는 프롬프트에 “나는 생각한다, 고로 존재한다… 그리고 세상에, 이 타임라인 진짜 미쳤네”라고 답하는 식이죠. Elon Musk의 xAI답게 여전히 ‘edgy’한 페르소나를 유지하고 있습니다.
AI 경쟁의 새로운 축
흥미로운 건 전략입니다. OpenAI, Anthropic, Google이 추론 능력 강화 경쟁을 벌이는 동안, xAI는 감성과 창의성으로 차별화를 시도했습니다. 그리고 그 결과를 2주간 조용히 실사용자에게 테스트했죠. 벤치마크 점수가 아니라 실제 사람들의 선호도로 검증한 겁니다.
이건 AI 평가 기준이 바뀌고 있다는 신호이기도 합니다. 얼마나 똑똑한가에서 얼마나 인간적인가, 얼마나 믿을 수 있는가로요. 물론 한계도 있습니다. 감성적으로 설득력 있는 AI는 의존성이나 영향력 측면에서 윤리적 질문을 던지니까요. 그리고 솔직히 xAI의 “반항적 10대” 같은 페르소나는 여전히 호불호가 갈립니다.
하지만 분명한 건, AI 경쟁이 단순 성능 경쟁에서 벗어나고 있다는 점입니다. Grok 4.1은 그 전환점을 보여주는 사례죠.
참고자료:
- Grok 4.1 Model Card – xAI

답글 남기기