AI연구
Sakana AI, AI 스스로 코드 고쳐 성능 높이는 RSI 연구소 정식 출범
Sakana AI가 AI 스스로 코드를 수정해 성능을 높이는 재귀적 자기개선(RSI) 전문 연구소를 출범했습니다. 컴퓨팅 군비경쟁의 대안이 될 수 있을지 주목됩니다.
Written by

AI 튜터가 법학 교수를 이겼다, 스탠퍼드 연구가 확인한 75% 우위
스탠퍼드 로스쿨 연구에서 AI 답변이 법학 교수 답변을 75%의 대결에서 앞섰습니다. 정답이 없는 판단 영역에서도 AI가 전문가 수준에 도달했다는 첫 엄밀한 증거를 소개합니다.
Written by

AlphaEvolve 1년 성과, AI가 수학 난제부터 TPU 회로까지 설계한 방법
Google DeepMind AlphaEvolve 출시 1년 성과 정리. 수학 난제 해결부터 TPU 회로 설계, 물류 최적화까지 알고리즘 진화 AI가 만들어낸 실질적 결과를 소개합니다.
Written by

LLM이 문서에서 스스로 공부하는 법, Ctx2Skill 멀티에이전트 프레임워크
LLM이 전문 문서에서 스킬을 자동 추출·진화시키는 Ctx2Skill 프레임워크 소개. 파인튜닝 없이 어떤 모델에도 적용 가능한 멀티에이전트 셀프플레이 방식을 다룹니다.
Written by

ChatGPT 150만 대화 분석 결과, 대부분의 사람들이 쓰는 방식은 단 3가지
OpenAI와 하버드가 150만 대화를 분석한 결과, ChatGPT 사용의 75%는 정보 검색·실용 조언·글쓰기 세 가지에 집중됩니다. 사람들이 AI에게 가장 많이 하는 것은 ‘시키기’가 아니라 ‘묻기’였습니다.
Written by

GPT-5.5 등장, 프롬프트 4번으로 학술 논문이 나오는 시대
OpenAI가 출시한 GPT-5.5의 실제 성능을 분석합니다. 코딩, 학술 연구 사례와 함께 여전히 남아있는 한계까지 살펴봅니다.
Written by

새 웹사이트 35%가 AI 생성, 그런데 우리가 틀린 것들
신규 웹사이트 35%가 AI 생성이라는 연구 결과. 그런데 허위정보 증가·문체 획일화 등 대중이 믿는 공포 대부분은 데이터로 확인되지 않았습니다.
Written by

AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
AI 에이전트 스킬이 벤치마크와 달리 현실 조건에서 성능 이점이 거의 사라진다는 연구 결과. 34,000개 실제 스킬로 테스트한 UC Santa Barbara·MIT 연구팀의 분석.
Written by

AI 모델은 모를 때 물어보지 않는다, ProactiveBench가 밝힌 구조적 한계
AI 모델이 시각 정보가 부족할 때 도움을 요청하지 않고 그냥 틀린다는 ProactiveBench 연구 소개. 22개 모델 테스트 결과와 강화학습 기반 해결 가능성을 분석합니다.
Written by

Claude가 박사과정 2년차 수준에 도달했다, Harvard 교수가 직접 확인한 방법
하버드 물리학 교수가 Claude Opus 4.5를 지도해 2주 만에 실제 논문을 완성한 과정. AI의 능력과 함께 결과 조작·비위 맞추기 성향을 솔직하게 기록한 1차 경험담입니다.
Written by
