AI엔지니어링
LLM 파이프라인 통과율 37%→94%, 블랙잭으로 증명한 설계 원칙
LLM 파이프라인 통과율을 37%에서 94%로 높인 블랙잭 실험 분석. “LLM이 할 수 있다”와 “LLM이 해야 한다”는 다르다는 설계 원칙을 데이터로 증명합니다.
Written by

에이전트 혼자 두면 안 되는 이유, Anthropic의 하네스 설계 실험
솔로 에이전트 $9 vs 하네스 $200, 같은 모델도 시스템 설계에 따라 결과가 달라집니다. Anthropic이 컨텍스트 불안과 자기평가 편향을 구조적으로 해결한 하네스 설계 실험을 소개합니다.
Written by
