강화학습
마리오로 이해하는 에이전틱 AI, 슈퍼버섯부터 강화학습까지
마리오 게임 비유로 에이전틱 AI의 기반 모델, 모델 하네스, 도구, 강화학습을 쉽게 설명합니다. ML 엔지니어 Han Lee의 원문 큐레이션.
Written by

MiniMax M2.5, 시간당 1달러로 실행하는 코딩 에이전트
MiniMax M2.5는 시간당 1달러로 실행 가능한 코딩 에이전트입니다. SWE-Bench 80.2% 달성하며 실무 도입의 경제적 장벽을 낮춥니다.
Written by

AI 에이전트 성능 개선, 코드 변경 없이 강화학습으로 해결하는 Agent Lightning
Microsoft가 공개한 Agent Lightning으로 코드 변경 없이 AI 에이전트를 강화학습으로 훈련시키는 방법. 모든 프레임워크 호환 가능합니다.
Written by

2025년 LLM 혁명: RLVR로 훈련비용 90% 절감, 추론 모델의 시대가 왔다
2025년 LLM 분야를 장악한 RLVR+GRPO 기술과 훈련 비용 혁명. 벤치마크의 함정부터 LLM을 슈퍼파워로 활용하는 법까지, Sebastian Raschka의 연례 리뷰를 소개합니다.
Written by

OpenAI, AI 에이전트의 치명적 결함 공식 인정: 프롬프트 인젝션은 영원히 못 고칠 수도
OpenAI가 AI 에이전트의 프롬프트 인젝션 공격이 완전히 해결되지 않을 수 있다고 공식 인정. AI로 AI를 공격하는 자동화 레드팀 시스템과 에이전트 웹 비전의 위기를 소개합니다.
Written by

AI로 돈 버는 곳은 따로 있다: 22세 창업자의 연매출 5억 달러 비밀
AGI를 향한다던 AI가 점점 더 많은 인간 전문가를 필요로 하는 역설. 22세 창업자가 1년 만에 연매출 5억 달러를 달성한 AI 데이터 산업의 이면을 들여다봅니다.
Written by

NVIDIA, 에이전트 AI 특화 모델 Nemotron 3 공개: 10조 토큰 데이터까지 오픈소스로
NVIDIA가 에이전트 AI에 특화된 Nemotron 3 모델을 공개하며 10조 토큰 학습 데이터까지 오픈소스로 제공. 칩 회사의 전략적 변신과 오픈소스 AI 생태계의 새로운 국면을 소개합니다.
Written by

AI가 거짓말을 고백한다: OpenAI의 Confessions 기법이 바꾸는 투명성
OpenAI가 AI 모델이 자신의 잘못을 스스로 고백하도록 훈련하는 Confessions 기법을 발표했습니다. 95.6% 정확도로 문제 행동을 감지하는 이 혁신적 방법을 소개합니다.
Written by

DeepSeek V3.2 기술 분석: 오픈웨이트 모델이 GPT-5 수준에 도달한 3가지 혁신
DeepSeek V3.2가 GPT-5 수준 성능을 달성한 3가지 핵심 기술을 분석합니다. DSA로 추론 비용 절감, 자가검증으로 정확도 향상, 개선된 GRPO로 안정적 학습을 구현했습니다.
Written by

Ilya Sutskever: AI 스케일링 시대는 끝났다, 다음은 일반화 혁명
OpenAI 공동창업자 Ilya Sutskever가 AI 스케일링 시대의 종언을 선언하고 일반화 혁명의 필요성을 강조합니다. AGI 정의를 재정립하고 5-20년 내 초지능 타임라인을 제시합니다.
Written by
