LLM평가
LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.
Written by

AI 에이전트, 프로덕션에 올리기 전에 반드시 알아야 할 것들
에이전트는 기존 소프트웨어와 다르게 모니터링해야 합니다. LangChain이 정리한 자연어 입력의 무한성과 LLM 비결정성 문제, 그리고 어노테이션 큐·LLM 평가자를 활용한 프로덕션 옵저버빌리티 전략을 소개합니다.
Written by

Claude Code 개발팀이 밝히는 AI 에이전트 평가의 모든 것
AI 에이전트 개발 시 평가 시스템을 어떻게 구축할까? Anthropic이 Claude Code 개발 경험을 바탕으로 공개한 실전 가이드. 에이전트 유형별 평가 전략과 20-50개 태스크로 시작하는 로드맵을 소개합니다.
Written by

학생당 42센트로 AI 부정행위 잡기: NYU 교수의 AI 구술시험 실험
NYU 교수가 학생당 42센트로 AI 음성 에이전트 구술시험을 실시한 실험. AI 부정행위 시대의 현실적 평가 방법과 그 한계를 소개합니다.
Written by
