“ChatGPT가 나아요, Claude가 나아요?” 이 질문, 이제 틀린 질문이 됐습니다.

Wharton 경영대학원 교수이자 AI 활용 전문가인 Ethan Mollick이 자신의 뉴스레터 One Useful Thing에 AI 선택 가이드 최신판을 발표했습니다. ChatGPT 출시 이후 여덟 번째 가이드인데, 이번엔 “이전 버전과 완전히 다르다”고 직접 밝혔습니다. AI를 쓴다는 것의 의미 자체가 바뀌었기 때문입니다.
출처: A Guide to Which AI to Use in the Agentic Era – One Useful Thing (Ethan Mollick, 2026.02.18)
AI를 고른다는 건 이제 세 가지를 고르는 일
Mollick의 핵심 주장은 이렇습니다. 지금까지 AI 선택은 “어떤 모델이 더 똑똑한가”의 문제였습니다. 하지만 AI가 단순 대화를 넘어 작업을 직접 실행하는 에이전트로 진화하면서, 이제는 세 가지 층위를 함께 봐야 한다는 겁니다.
- 모델(Model): AI의 두뇌. GPT-5.2, Claude Opus 4.6, Gemini 3 Pro가 현재 3대장이며, 추론 능력·글쓰기·코딩 등 기본 역량을 결정합니다.
- 앱(App): 모델에 접근하는 창구. chatgpt.com, claude.ai, gemini.google.com 같은 웹사이트나 모바일 앱이 여기에 해당합니다.
- 하네스(Harness): 모델의 힘을 실제 작업에 연결하는 장치. 말이 마차를 끌 수 있도록 묶는 마구(馬具)에 빗댄 표현입니다. 웹 검색, 코드 실행, 파일 처리 등 AI가 실제로 무언가를 ‘할 수 있게’ 만드는 환경 전체를 뜻합니다.
Mollick의 설명에 따르면, 똑같은 Claude Opus 4.6이라도 기본 채팅창에서 쓸 때와 Claude Code 안에서 쓸 때는 완전히 다른 도구입니다. 전자는 답변을 생성하고, 후자는 수 시간 동안 혼자 소프트웨어를 작성하고 테스트합니다.
모델 성능보다 하네스 격차가 더 크다
현재 3대 모델의 순수 성능 차이는 점점 줄고 있습니다. Mollick은 “대부분의 사람에게 모델 차이보다 앱과 하네스가 더 중요하다”고 단언합니다.
실제 하네스 격차가 잘 드러나는 사례가 있습니다. 같은 질문을 ChatGPT와 Claude, Gemini에게 던졌을 때, ChatGPT와 Claude는 실제로 작동하는 스프레드시트와 PPT 파일을 만들어 줬지만, Gemini는 문서 파일 자체를 생성하지 못했습니다. 모델 성능이 비슷해도 하네스가 약하면 결과가 달라지는 거죠.
코딩 도구인 Claude Code, OpenAI Codex, Google Antigravity는 가장 강력한 하네스를 갖춘 사례입니다. AI에게 코드베이스, 터미널, 브라우저를 통째로 쥐어주고 ‘알아서 해결하라’고 맡길 수 있습니다. Mollick 본인도 GPT-1의 내부 가중치 1억 1700만 개를 책으로 만드는 프로젝트를 Claude Code에 맡겼고, 약 한 시간 만에 80권짜리 책, 커버 디자인, 웹사이트 구축, 결제 시스템 연동까지 완료됐다고 소개합니다.
비개발자를 위한 에이전트 도구도 주목할 만합니다. Anthropic이 올해 1월 출시한 Claude Cowork는 사용자의 데스크톱에서 직접 실행되며, 파일 정리나 PDF 데이터 추출 같은 작업을 계획 수립부터 실행까지 혼자 처리합니다. Mollick은 이를 “비기술 업무용 Claude Code”라고 표현하며, OpenAI나 Google엔 직접적인 대응 제품이 없다고 짚습니다.
“말하는 AI”에서 “하는 AI”로
Mollick의 이 글이 주목받는 이유는 단순한 제품 비교를 넘어서기 때문입니다. 그는 챗봇에서 에이전트로의 전환을 “ChatGPT 등장 이후 AI 사용 방식에서 가장 큰 변화”로 규정하며, 이 변화가 사용자에게 요구하는 역할 자체가 달라진다고 봅니다. 이제 사용자는 프롬프트를 정교하게 짜는 사람이 아니라, AI가 작업을 진행하는 동안 방향을 잡아주는 관리자에 가깝다는 겁니다.
각 도구의 구체적인 비교, 모델 선택 방법, NotebookLM 같은 특수 용도 앱에 대한 설명은 원문에서 확인할 수 있습니다.

답글 남기기