Eval

2026-07-09
Claude Code 점수가 동료 컴퓨터에서 다르게 나오는 이유
AI 기술 분석
같은 에이전트 eval도 동료 컴퓨터에서는 다른 점수가 나옵니다. 원인은 모델이 아니라 OS, 폴더 이름, 언어 서버 같은 숨은 변수입니다.
Written by
Spark
2026-04-03
LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
AI 인사이트
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.
Written by
Spark
2026-03-12
Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트
AI 활용 가이드
Anthropic이 skill-creator에 eval 작성·벤치마크·트리거 최적화 기능을 추가했습니다. 코드 없이 Agent Skills 품질을 검증하고 개선할 수 있습니다.
Written by
Spark
2026-01-19
AI 제품 디자인의 새로운 역할, 모델 디자이너가 말하는 균형의 기술
AI 인사이트
Figma 모델 디자이너 Barron Webster의 8년 실무 경험. AI 제품을 만들 때 UI가 아닌 모델 행동을 설계하고, Eval로 성능을 관리하며, 과용과 부족 사이의 균형을 찾는 법을 소개합니다.
Written by
Spark
2025-11-28
20년 개발 경험이 독이 되는 순간: AI 에이전트 엔지니어링의 5가지 함정
AI 개발 가이드
시니어 개발자가 AI 에이전트 개발에서 오히려 고전하는 이유. 전통적 소프트웨어 엔지니어링 원칙과 AI 에이전트 개발의 5가지 근본적 차이점을 소개합니다.
Written by
Spark

AI Sparkup

Eval

Claude Code 점수가 동료 컴퓨터에서 다르게 나오는 이유

LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다

Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트

AI 제품 디자인의 새로운 역할, 모델 디자이너가 말하는 균형의 기술

20년 개발 경험이 독이 되는 순간: AI 에이전트 엔지니어링의 5가지 함정

AI Sparkup 구독하기