AI 인사이트
Claude Opus 4.6, 시험 문제를 스스로 해킹하다, AI 벤치마크 신뢰성의 균열
Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.
Written by

Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고
가중치 수정 없이 레이어 복제만으로 LLM 리더보드 1위를 달성한 실험. 트랜스포머 내부의 기능적 ‘회로’ 구조를 발견한 LLM Neuroanatomy 이론을 소개합니다.
Written by

AI 에이전트가 직접 10만 달러를 투자했다, VC의 머니볼 시대가 왔을까
AI 에이전트가 직접 투자 결정을 내리는 시대가 왔습니다. 하지만 VC의 진짜 위협은 AI가 그들의 자리를 빼앗는 것이 아닐 수 있습니다.
Written by

LLM이 만든 코드가 20,171배 느린 이유, ‘그럴듯한 코드’의 함정
LLM이 생성한 SQLite Rust 재구현체가 원본보다 20,171배 느린 원인 분석. ‘그럴듯한 코드’와 ‘올바른 코드’의 차이, RLHF 기반 sycophancy 문제를 실증적으로 다룹니다.
Written by

LLM이 만드는 코드는 위조품이다, 현직 엔지니어의 냉정한 진단
LLM 출력물을 “위조품”으로 규정한 엔지니어 Steven Wittens의 에세이. AI 코딩이 오픈소스 생태계와 개발 문화에 미치는 실질적 피해와 구조적 한계를 짚습니다.
Written by

Healthline은 어떻게 ChatGPT에 수십만 번 인용됐나, AI 검색 시대의 토픽 전략
AI 검색 시대에 개별 키워드보다 토픽 권위가 중요한 이유. Healthline의 AI 검색 인용 사례로 보는 콘텐츠 전략 변화를 소개합니다.
Written by

코드 리뷰가 죽어가고 있다, AI 시대 개발 워크플로우의 구조적 전환
AI 도입 후 PR은 98% 늘었지만 리뷰 시간도 91% 증가. Aviator CEO가 제안하는 스펙 중심 개발과 자동화 검증 계층으로의 전환을 소개합니다.
Written by

Claude가 XML 태그에 유독 잘 반응하는 이유, 언어학으로 풀었다
Claude에서 XML 태그가 효과적인 이유를 언어학적 원리로 설명한 글. 1차/2차 표현 구분이라는 모든 언어에 공통된 구조와 연결해 해석합니다.
Written by

AI 성격은 주입하는 게 아니었다, LLM 내부 페르소나 서브네트워크 발견
LLM 파라미터 안에 성격 유형별 서브네트워크가 이미 존재한다는 연구. 훈련 없이 마스킹만으로 페르소나를 격리·전환하는 방법을 소개합니다.
Written by

멀티턴 대화에서 LLM 정확도 33% 하락, GPT-5도 예외 없었다
GPT-5 포함 최신 LLM도 대화가 길어지면 정확도가 33% 하락한다는 연구. 원인과 패턴을 분석합니다.
Written by
