7시간 연속 코딩하는 AI의 등장
AI 개발 경쟁이 치열해지는 가운데, Anthropic이 또 한 번 업계를 놀라게 할 발표를 했습니다. 2025년 5월 22일, 차세대 AI 모델인 Claude 4 시리즈를 공식 출시한 것입니다. Claude Opus 4와 Claude Sonnet 4로 구성된 이번 신작은 단순한 업그레이드를 넘어 AI 코딩의 패러다임 자체를 바꿀 혁신을 담고 있습니다.

특히 주목할 점은 Claude Opus 4가 무려 7시간 동안 연속으로 코드 리팩토링 작업을 수행했다는 사실입니다. 이전까지 AI 모델들이 1-2시간 정도만 일관성을 유지할 수 있었던 것과 비교하면 놀라운 발전입니다. 이는 단순히 성능이 향상된 것이 아니라, AI가 복잡한 장기 프로젝트를 독립적으로 수행할 수 있는 새로운 시대의 시작을 의미합니다.
두 모델의 특징과 차별점
Claude 4 시리즈는 서로 다른 용도에 최적화된 두 모델로 구성됩니다.
Claude Opus 4는 Anthropic의 가장 강력한 모델로, 복잡하고 장기간 지속되는 작업에 특화되어 있습니다. SWE-bench에서 72.5%, Terminal-bench에서 43.2%의 성과를 기록하며 “세계 최고의 코딩 모델”이라는 타이틀을 획득했습니다. 수천 개의 단계를 거치는 복잡한 워크플로우에서도 집중력을 잃지 않고 몇 시간 동안 연속으로 작업할 수 있는 능력이 특징입니다.
Claude Sonnet 4는 성능과 효율성의 균형을 추구한 모델입니다. SWE-bench에서 72.7%라는 Opus 4를 능가하는 점수를 기록하면서도, 더 빠른 응답 속도와 합리적인 비용을 제공합니다. 이전 모델인 Sonnet 3.7의 업그레이드 버전으로, 일반적인 업무에 더 적합합니다.
흥미롭게도 두 모델 모두 하이브리드 구조를 채택해, 간단한 질문에는 즉시 응답하고 복잡한 문제에는 ‘확장된 사고(Extended Thinking)’ 모드로 전환하여 깊이 있는 분석을 제공합니다.
벤치마크에서 입증된 압도적 성능

Claude 4의 성능은 다양한 벤치마크에서 확인할 수 있습니다. 실제 소프트웨어 엔지니어링 작업을 평가하는 SWE-bench Verified에서 Claude 4 모델들은 기존의 모든 경쟁 모델을 앞섰습니다. OpenAI의 GPT-4.1, Google의 Gemini 2.5 Pro, 심지어 최신 o3 모델까지도 Claude 4의 성능을 따라잡지 못했습니다.
더욱 놀라운 것은 실제 기업들의 검증 사례입니다. 일본의 거대 기술 기업 Rakuten은 Claude Opus 4를 이용해 7시간 동안 지속되는 오픈소스 리팩토링 작업을 성공적으로 완료했다고 발표했습니다. 이는 AI가 인간의 개입 없이도 대규모 프로젝트를 완수할 수 있음을 보여주는 획기적인 사례입니다.
확장된 사고, AI 추론의 새로운 차원
Claude 4의 가장 혁신적인 기능 중 하나는 ‘확장된 사고(Extended Thinking)’ 기능입니다. 이는 OpenAI의 o3 모델과 유사한 접근법으로, AI가 복잡한 문제를 해결하기 위해 단계별로 사고하는 과정을 거칩니다.
기존 AI들이 즉석에서 답을 생성했다면, Claude 4는 마치 인간처럼 문제를 분석하고, 여러 가능성을 검토하며, 도구를 활용해 정보를 수집한 후 최종 답안을 도출합니다. 웹 검색, 코드 실행, 파일 분석 등 다양한 외부 도구를 추론 과정에서 활용할 수 있어 더욱 정확하고 신뢰할 수 있는 결과를 제공합니다.
특히 주목할 점은 향상된 메모리 기능입니다. 개발자가 로컬 파일에 접근할 수 있도록 허용하면, Claude Opus 4는 자동으로 ‘메모리 파일’을 생성하여 중요한 정보를 저장하고 관리합니다. 포켓몬 게임을 플레이하면서 ‘네비게이션 가이드’를 작성하는 등, 장기간에 걸쳐 학습하고 지식을 축적할 수 있는 능력을 보여줍니다.

업계의 뜨거운 반응과 실제 도입 사례
Claude 4 출시 소식은 개발 도구 업계에 즉각적인 파장을 일으켰습니다. GitHub은 Claude Sonnet 4를 새로운 GitHub Copilot 코딩 에이전트의 기반 모델로 채택한다고 발표했습니다. 이는 Microsoft와 긴밀한 관계를 맺고 있는 GitHub이 OpenAI 대신 Anthropic의 모델을 선택한 것으로, Claude 4의 우수성을 입증하는 상징적인 사건입니다.
Cursor의 공동 창립자 Aman Sanger는 “Claude Sonnet 4는 코드베이스 이해 능력이 훨씬 뛰어나며, 대규모 코드베이스에서 최고 수준의 성능을 보인다”고 평가했습니다. Replit은 “정밀도가 향상되었고 여러 파일에 걸친 복잡한 변경 작업에서 극적인 발전을 보였다”고 전했습니다.
Block(Square의 모회사)은 Claude 4가 “편집과 디버깅 과정에서 코드 품질을 향상시키는 첫 번째 모델”이라고 평가하며, 자사의 AI 에이전트에 적용하고 있다고 밝혔습니다. Sourcegraph는 “모델이 더 오래 집중하고, 문제를 더 깊이 이해하며, 더 우아한 코드 품질을 제공한다”고 설명했습니다.
개발자 생태계의 변화
Claude 4의 등장은 개발자들의 일상을 크게 바꿀 것으로 예상됩니다. 특히 Claude Code의 정식 출시와 함께 제공되는 다양한 통합 도구들이 주목받고 있습니다.
VS Code와 JetBrains용 확장 프로그램을 통해 Claude의 코드 제안이 IDE에서 직접 표시되며, GitHub Actions와의 연동으로 백그라운드 작업도 가능합니다. 새로운 SDK를 통해 개발자들은 Claude의 기능을 자신만의 도구와 애플리케이션에 통합할 수 있습니다.
API 측면에서도 네 가지 새로운 기능이 추가되었습니다. 코드 실행 도구, MCP 커넥터, Files API, 그리고 최대 1시간까지 프롬프트를 캐시할 수 있는 기능입니다. 이러한 도구들은 개발자들이 더욱 강력한 AI 에이전트를 구축할 수 있도록 돕습니다.
가격과 접근성
Claude 4 모델들의 가격 정책은 이전과 동일하게 유지됩니다. Opus 4는 입력 토큰 백만 개당 15달러, 출력 토큰 백만 개당 75달러이며, Sonnet 4는 입력 3달러, 출력 15달러입니다.
무료 사용자도 Claude Sonnet 4에 접근할 수 있어, 누구나 최신 AI 코딩 기술을 체험해볼 수 있습니다. Pro, Max, Team, Enterprise 플랜 사용자는 두 모델 모두와 확장된 사고 기능을 이용할 수 있습니다.
AI 코딩의 미래를 바라보며
Claude 4의 등장은 단순한 도구의 업그레이드를 넘어 개발 패러다임의 변화를 예고합니다. 7시간 동안 연속으로 작업할 수 있는 AI, 복잡한 프로젝트를 독립적으로 수행하는 AI, 그리고 시간이 지날수록 학습하고 발전하는 AI의 시대가 열린 것입니다.
물론 여전히 인간의 검토와 감독이 필요하다는 점은 변하지 않습니다. Anthropic의 Alex Albert는 “코드 리뷰 과정이 더욱 중요해질 것이며, 개발자의 역할이 생성보다는 검토에 더 집중될 것”이라고 전망했습니다.
하지만 분명한 것은 Claude 4가 AI와 인간 개발자 간의 협업을 새로운 차원으로 끌어올렸다는 점입니다. 반복적인 작업은 AI에게 맡기고, 개발자들은 더 창의적이고 전략적인 업무에 집중할 수 있는 환경이 조성되고 있습니다.
앞으로 몇 달 동안 Claude 4가 실제 개발 현장에서 어떤 변화를 가져올지, 그리고 다른 AI 회사들이 어떤 대응을 내놓을지 지켜보는 것이 흥미로울 것입니다. 한 가지 확실한 것은 AI 코딩 도구의 발전 속도가 우리의 예상을 계속해서 뛰어넘고 있다는 사실입니다.
참고자료:
- Introducing Claude 4
- New Claude 4 AI model refactored code for 7 hours straight – Ars Technica
- Anthropic’s Claude 4 AI models are better at coding and reasoning | The Verge
- Anthropic’s new Claude 4 AI models can reason over many steps | TechCrunch
- Anthropic Reclaims the AI Coding Crown With Claude 4
Comments