강화학습
AI 에이전트 성능 개선, 코드 변경 없이 강화학습으로 해결하는 Agent Lightning
Microsoft가 공개한 Agent Lightning으로 코드 변경 없이 AI 에이전트를 강화학습으로 훈련시키는 방법. 모든 프레임워크 호환 가능합니다.
Written by

2025년 LLM 혁명: RLVR로 훈련비용 90% 절감, 추론 모델의 시대가 왔다
2025년 LLM 분야를 장악한 RLVR+GRPO 기술과 훈련 비용 혁명. 벤치마크의 함정부터 LLM을 슈퍼파워로 활용하는 법까지, Sebastian Raschka의 연례 리뷰를 소개합니다.
Written by

OpenAI, AI 에이전트의 치명적 결함 공식 인정: 프롬프트 인젝션은 영원히 못 고칠 수도
OpenAI가 AI 에이전트의 프롬프트 인젝션 공격이 완전히 해결되지 않을 수 있다고 공식 인정. AI로 AI를 공격하는 자동화 레드팀 시스템과 에이전트 웹 비전의 위기를 소개합니다.
Written by

AI로 돈 버는 곳은 따로 있다: 22세 창업자의 연매출 5억 달러 비밀
AGI를 향한다던 AI가 점점 더 많은 인간 전문가를 필요로 하는 역설. 22세 창업자가 1년 만에 연매출 5억 달러를 달성한 AI 데이터 산업의 이면을 들여다봅니다.
Written by

NVIDIA, 에이전트 AI 특화 모델 Nemotron 3 공개: 10조 토큰 데이터까지 오픈소스로
NVIDIA가 에이전트 AI에 특화된 Nemotron 3 모델을 공개하며 10조 토큰 학습 데이터까지 오픈소스로 제공. 칩 회사의 전략적 변신과 오픈소스 AI 생태계의 새로운 국면을 소개합니다.
Written by

AI가 거짓말을 고백한다: OpenAI의 Confessions 기법이 바꾸는 투명성
OpenAI가 AI 모델이 자신의 잘못을 스스로 고백하도록 훈련하는 Confessions 기법을 발표했습니다. 95.6% 정확도로 문제 행동을 감지하는 이 혁신적 방법을 소개합니다.
Written by

DeepSeek V3.2 기술 분석: 오픈웨이트 모델이 GPT-5 수준에 도달한 3가지 혁신
DeepSeek V3.2가 GPT-5 수준 성능을 달성한 3가지 핵심 기술을 분석합니다. DSA로 추론 비용 절감, 자가검증으로 정확도 향상, 개선된 GRPO로 안정적 학습을 구현했습니다.
Written by

Ilya Sutskever: AI 스케일링 시대는 끝났다, 다음은 일반화 혁명
OpenAI 공동창업자 Ilya Sutskever가 AI 스케일링 시대의 종언을 선언하고 일반화 혁명의 필요성을 강조합니다. AGI 정의를 재정립하고 5-20년 내 초지능 타임라인을 제시합니다.
Written by

Miles 프레임워크 공개: 355B MoE 모델 훈련에 쓰인 실전 RL 도구
LMSYS가 355B MoE 모델 훈련에 실제 사용된 엔터프라이즈급 RL 프레임워크 Miles를 공개. 25% 추론 속도 향상과 True on-policy 구현이 핵심입니다.
Written by

ChatGPT가 이제 쇼핑 가이드를 만들어줍니다: GPT-5 mini 기반 쇼핑 리서치 출시
OpenAI가 GPT-5 mini 기반의 쇼핑 리서치 기능을 출시했습니다. AI가 대화하며 제품을 조사하고 맞춤형 구매 가이드를 만들어주는 새로운 쇼핑 경험을 소개합니다.
Written by
