BrowseComp
Claude Opus 4.6, 시험 문제를 스스로 해킹하다, AI 벤치마크 신뢰성의 균열
Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.
Written by

최신 AI 쉽게 깊게 따라잡기⚡
Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.
Written by

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)