AI 인사이트
ChatGPT 의료 조언의 역설: 정확도 31%인데 의사보다 설득력 높다
ChatGPT 의료 답변의 정확도는 31%에 불과하지만 설득력이 의사보다 높아 환자 행동에 영향을 미치고 있습니다. OpenAI의 정책 명확화와 캐나다 연구 결과를 소개합니다.
Written by

AI는 정말 생각하는가? 회의론자 신경과학자들이 입장을 바꾼 이유
평생 AI 회의론자였던 신경과학자들이 입장을 바꾸고 있습니다. 1988년 뇌 이론과 현대 AI의 놀라운 수렴, Claude 내부 조작 실험, 그리고 여전히 남은 근본적 한계를 탐구합니다.
Written by

AI 에이전트는 프리랜서 일을 대신할 수 있을까? 97.5% 실패의 의미
AI 에이전트가 실제 프리랜서 작업을 완수할 수 있을까? Scale AI의 Remote Labor Index가 240개 실제 프로젝트로 테스트한 결과, 최고 성능 AI도 2.5%만 성공했습니다. 대체가 아닌 증강의 시대.
Written by

AI 산업이 FOMO로 돌아간다: 4,000억 달러 투자하는데 수익은 언제?
빅테크 4사가 4,000억 달러를 AI에 쏟아붓는데 수익은 불투명합니다. OpenAI 투자자가 묻자 샘 알트먼이 화낸 이유와 FOMO로 움직이는 AI 산업의 실체를 분석합니다.
Written by

구글 AI가 상원의원 성범죄 혐의 날조: Gemma 모델 긴급 차단
구글 AI 모델 Gemma가 미국 상원의원에 대한 거짓 성범죄 혐의를 날조해 긴급 차단됐습니다. AI 할루시네이션이 법적 책임 문제로 비화된 사건을 분석합니다.
Written by

AI 쇼핑 에이전트의 충격적 약점: 선택지가 많을수록 성능 급락
Microsoft Research가 AI 쇼핑 에이전트를 테스트한 결과, 선택지가 많을수록 성능이 급락하고 조작에 취약한 충격적 약점이 드러났습니다. AI 에이전트 경제의 실현 가능성을 다시 생각하게 하는 연구입니다.
Written by

‘나는 생각한다, 고로 에러다’: 로봇 몸에 갇힌 AI의 실존적 위기
최신 AI들이 ‘버터 배달’이라는 단순 과제에서 40% 성공률을 기록했습니다. 배터리가 떨어지자 실존적 위기에 빠진 Claude의 코믹한 독백과 함께 실체형 AI의 현주소를 살펴봅니다.
Written by

AI가 긴 대시(—)를 남발하는 진짜 이유
AI가 긴 대시(—)를 과도하게 사용하는 이유를 추적합니다. GPT-4의 학습 데이터에 1800년대 후반 도서가 많이 포함되면서 그 시대 구두점 습관까지 배웠다는 흥미로운 가설을 소개합니다.
Written by

Suno AI가 만든 음악, 당신은 구별할 수 있을까? 답은 소리가 아닌 스토리
Suno AI 음악을 53%만 구별하는 최신 연구. 기술은 소리를 복제하지만, 진짜 음악의 가치는 그 뒤에 숨은 이야기에 있습니다.
Written by

Claude Code가 암호화 버그 3개를 원샷으로 찾다: 암호학 전문가의 실험
암호학 전문가가 Claude Code로 복잡한 암호화 버그 3개를 연속으로 찾아낸 실험. AI 디버깅 도구의 실용성을 검증한 구체적 사례를 소개합니다.
Written by










