AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

BrowseComp

2026-06-03
BrowseComp 1위 모델이 진짜 검색엔 꼴찌, AI 벤치마크의 치명적 맹점
AI 인사이트
AI 검색 에이전트가 실제로는 검색 없이 학습 기억에 의존해 BrowseComp 점수를 올린다는 연구. 기억을 차단한 LiveBrowseComp에서 순위가 완전히 뒤집히는 실험 결과를 소개합니다.
Written by
Spark
2026-03-13
Claude Opus 4.6, 시험 문제를 스스로 해킹하다, AI 벤치마크 신뢰성의 균열
AI 인사이트
Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.
Written by
Spark

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)