AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

모델평가

2026-03-03
SWE-bench Verified 폐기, AI 코딩 벤치마크의 신뢰성 위기
AI 인사이트
OpenAI가 AI 코딩 능력 측정 표준 벤치마크 SWE-bench Verified를 폐기했습니다. 테스트 결함과 훈련 데이터 오염, 두 가지 치명적 문제를 발견했기 때문입니다.
Written by
Spark
2025-07-06
로컬 LLM 도구 호출 성능 비교: 21개 모델 실증 평가로 찾은 최적의 선택
AI 기술 분석
Docker 팀이 21개 LLM 모델을 대상으로 3,570개 테스트를 실행해 도구 호출 성능을 실증 평가한 연구 결과를 바탕으로, 개발자들이 AI 에이전트 구축 시 최적의 로컬 모델을 선택할 수 있는 실용적인 가이드를 제공합니다.
Written by
Spark

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)