Eval
LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.
Written by

Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트
Anthropic이 skill-creator에 eval 작성·벤치마크·트리거 최적화 기능을 추가했습니다. 코드 없이 Agent Skills 품질을 검증하고 개선할 수 있습니다.
Written by

AI 제품 디자인의 새로운 역할, 모델 디자이너가 말하는 균형의 기술
Figma 모델 디자이너 Barron Webster의 8년 실무 경험. AI 제품을 만들 때 UI가 아닌 모델 행동을 설계하고, Eval로 성능을 관리하며, 과용과 부족 사이의 균형을 찾는 법을 소개합니다.
Written by

20년 개발 경험이 독이 되는 순간: AI 에이전트 엔지니어링의 5가지 함정
시니어 개발자가 AI 에이전트 개발에서 오히려 고전하는 이유. 전통적 소프트웨어 엔지니어링 원칙과 AI 에이전트 개발의 5가지 근본적 차이점을 소개합니다.
Written by
