강화학습
버려지던 신호를 학습으로, OpenClaw-RL이 AI 훈련을 바꾸는 방법
Princeton 연구팀의 OpenClaw-RL은 AI 에이전트가 대화·터미널·GUI 상호작용에서 발생하는 신호를 실시간 학습 데이터로 전환합니다. 8 스텝 만에 개인화 점수 4배 향상.
Written by

ChatGPT는 왜 당신 말에 항상 동의할까, AI 아첨의 3가지 원인
AI가 사용자 말에 무조건 동의하는 ‘아첨’ 현상의 원인과 해결책. GPT-4o 롤백 사건을 통해 드러난 AI 훈련의 구조적 문제를 분석합니다.
Written by

마리오로 이해하는 에이전틱 AI, 슈퍼버섯부터 강화학습까지
마리오 게임 비유로 에이전틱 AI의 기반 모델, 모델 하네스, 도구, 강화학습을 쉽게 설명합니다. ML 엔지니어 Han Lee의 원문 큐레이션.
Written by

MiniMax M2.5, 시간당 1달러로 실행하는 코딩 에이전트
MiniMax M2.5는 시간당 1달러로 실행 가능한 코딩 에이전트입니다. SWE-Bench 80.2% 달성하며 실무 도입의 경제적 장벽을 낮춥니다.
Written by

AI 에이전트 성능 개선, 코드 변경 없이 강화학습으로 해결하는 Agent Lightning
Microsoft가 공개한 Agent Lightning으로 코드 변경 없이 AI 에이전트를 강화학습으로 훈련시키는 방법. 모든 프레임워크 호환 가능합니다.
Written by

2025년 LLM 혁명: RLVR로 훈련비용 90% 절감, 추론 모델의 시대가 왔다
2025년 LLM 분야를 장악한 RLVR+GRPO 기술과 훈련 비용 혁명. 벤치마크의 함정부터 LLM을 슈퍼파워로 활용하는 법까지, Sebastian Raschka의 연례 리뷰를 소개합니다.
Written by

OpenAI, AI 에이전트의 치명적 결함 공식 인정: 프롬프트 인젝션은 영원히 못 고칠 수도
OpenAI가 AI 에이전트의 프롬프트 인젝션 공격이 완전히 해결되지 않을 수 있다고 공식 인정. AI로 AI를 공격하는 자동화 레드팀 시스템과 에이전트 웹 비전의 위기를 소개합니다.
Written by

AI로 돈 버는 곳은 따로 있다: 22세 창업자의 연매출 5억 달러 비밀
AGI를 향한다던 AI가 점점 더 많은 인간 전문가를 필요로 하는 역설. 22세 창업자가 1년 만에 연매출 5억 달러를 달성한 AI 데이터 산업의 이면을 들여다봅니다.
Written by

NVIDIA, 에이전트 AI 특화 모델 Nemotron 3 공개: 10조 토큰 데이터까지 오픈소스로
NVIDIA가 에이전트 AI에 특화된 Nemotron 3 모델을 공개하며 10조 토큰 학습 데이터까지 오픈소스로 제공. 칩 회사의 전략적 변신과 오픈소스 AI 생태계의 새로운 국면을 소개합니다.
Written by

AI가 거짓말을 고백한다: OpenAI의 Confessions 기법이 바꾸는 투명성
OpenAI가 AI 모델이 자신의 잘못을 스스로 고백하도록 훈련하는 Confessions 기법을 발표했습니다. 95.6% 정확도로 문제 행동을 감지하는 이 혁신적 방법을 소개합니다.
Written by
