강화학습
AI 모델은 모를 때 물어보지 않는다, ProactiveBench가 밝힌 구조적 한계
AI 모델이 시각 정보가 부족할 때 도움을 요청하지 않고 그냥 틀린다는 ProactiveBench 연구 소개. 22개 모델 테스트 결과와 강화학습 기반 해결 가능성을 분석합니다.
Written by

이미지 속 실수 하나가 전부를 망친다, Qwen팀의 HopChain이 고친 방법
알리바바 Qwen팀이 개발한 HopChain은 AI 비전 모델이 다단계 추론 시 오류가 누적되는 문제를 훈련 데이터 구조에서 해결합니다. 24개 벤치마크 중 20개 성능 향상.
Written by

LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과
LLM에 감정 표현을 넣으면 성능이 오른다는 통념을 Harvard 연구팀이 실험으로 검증. 고정 감정은 효과 미미하지만, 적응형 감정 선택(EmotionRL)은 유효하다는 결과를 소개합니다.
Written by

Kimi·Cursor·Chroma가 에이전틱 AI를 훈련한 방식, 세 가지 공통 원칙
Kimi K2.5·Cursor Composer 2·Chroma Context-1이 강화학습으로 에이전틱 AI를 훈련한 방식 비교. 세 팀이 독립적으로 도달한 3가지 공통 원칙을 소개합니다.
Written by

MiniMax M2.7, 자기 진화 100회 반복으로 성능 30% 높인 방법
MiniMax M2.7이 100회 이상의 자율 최적화 루프로 자신의 강화학습 파이프라인을 개선해 성능 30%를 높인 방법. GLM-5 동급 성능을 1/3 비용으로 달성한 과정도 소개합니다.
Written by

버려지던 신호를 학습으로, OpenClaw-RL이 AI 훈련을 바꾸는 방법
Princeton 연구팀의 OpenClaw-RL은 AI 에이전트가 대화·터미널·GUI 상호작용에서 발생하는 신호를 실시간 학습 데이터로 전환합니다. 8 스텝 만에 개인화 점수 4배 향상.
Written by

ChatGPT는 왜 당신 말에 항상 동의할까, AI 아첨의 3가지 원인
AI가 사용자 말에 무조건 동의하는 ‘아첨’ 현상의 원인과 해결책. GPT-4o 롤백 사건을 통해 드러난 AI 훈련의 구조적 문제를 분석합니다.
Written by

마리오로 이해하는 에이전틱 AI, 슈퍼버섯부터 강화학습까지
마리오 게임 비유로 에이전틱 AI의 기반 모델, 모델 하네스, 도구, 강화학습을 쉽게 설명합니다. ML 엔지니어 Han Lee의 원문 큐레이션.
Written by

MiniMax M2.5, 시간당 1달러로 실행하는 코딩 에이전트
MiniMax M2.5는 시간당 1달러로 실행 가능한 코딩 에이전트입니다. SWE-Bench 80.2% 달성하며 실무 도입의 경제적 장벽을 낮춥니다.
Written by

