4월 초, Anthropic이 OpenClaw(서드파티 AI 에이전트 프레임워크)에 대한 가격 정책을 발표했습니다. 그동안 구독 가입으로 무제한 사용하던 Claude가 이제는 초과 사용량에 따라 추가 요금을 내야 하는 방식으로 바뀐 것입니다. 이 소식에 많은 개발자들이 저렴한 GPT-5.4로 전환을 검토하기 시작했습니다. 하지만 Skylar Payne이라는 개발자의 실전 테스트 결과는 흥미로운 다른 이야기를 보여줍니다.

출처: GPT-5.4 in OpenClaw doesn’t suck. Your prompts do. – Skylar Payne
정책 변화가 바꾼 것
Anthropic의 정책 변화는 단순히 “가격이 올랐다”는 의미가 아닙니다. 개발자들이 마주한 선택지 자체가 달라졌습니다. 기존에는 “Claude 구독 vs 아무 것도 안 쓰기” 정도였다면, 이제는 “Claude 종량제 vs GPT 구독 vs GPT 종량제” 같은 여러 옵션을 비교해야 하는 상황이 된 것입니다.
실제로 큰 변화는 경제 구조입니다. 구독 모델에서는 월 비용이 정해져 있어서 예산 계획이 쉬웠습니다. 종량제로 바뀌면 사용량에 따라 인프라 비용이 갑자기 튈 수 있다는 불확실성이 생깁니다. OpenAI는 여전히 ChatGPT 구독을 통해 기존의 “정해진 월 비용” 구조를 유지하고 있어서, 이 점이 많은 개발자들을 GPT로 끌어당기는 요인이 되었습니다.
“GPT가 나빠서” vs “설정이 맞지 않아서”
이 정책 변화로 인해 개발자 커뮤니티에서 자주 나오는 피드백은 “GPT-5.4는 Claude보다 훨씬 못하다”는 것입니다. 하지만 Payne의 지적은 예리합니다. 대부분의 비교가 불공정하다는 것입니다.
개발자들이 하는 테스트 방식은 이렇습니다: Claude 에이전트에 최적화된 프롬프트와 설정을 그대로 가져온 뒤, 모델 이름만 GPT-5.4로 바꾸고 실행합니다. 그리고 나서 “GPT가 더 못하네”라고 결론 짓죠. 하지만 이것은 공정한 비교가 아닙니다. 마치 Claude용으로 튜닝된 악기 설정을 GPT 악기에 그대로 적용하고 “이 악기는 못 울려”라고 하는 것과 같습니다.
Payne이 언급한 “One Soul, Many Minds” 개념이 중요합니다. 에이전트는 핵심 정체성(영혼)은 동일하게 유지하되, 모델마다 다른 설정(오버레이)이 필요하다는 뜻입니다. 즉, 에이전트의 역할과 목표, 음성은 유지하되 GPT-5.4의 특성에 맞춰 프롬프트를 다시 조정해야 한다는 것입니다.
실전 테스트: 튜닝 전과 후
Payne은 자신이 실제로 사용하는 작업들(뉴스레터 작성, 코딩, 계획 수립, 성격, 반응성)을 기준으로 evals(평가)를 만들어 두 모델을 비교했습니다. 결과는 명확했습니다.

튜닝 전에는 GPT-5.4가 여러 카테고리에서 Opus보다 낮은 점수를 받았습니다. 특히 뉴스레터 작성(10점 vs 18점)과 성격 표현(11점 vs 22점)에서 큰 차이가 났습니다. 하지만 Payne이 프롬프트와 부트스트랩 파일을 GPT-5.4의 특성에 맞춰 튜닝한 후에는 상황이 완전히 달라졌습니다.
튜닝 후, GPT-5.4는 뉴스레터 작성에서 Opus를 넘어섰고(20점 vs 18점), 성격 표현도 거의 같은 수준(23점 vs 22점)으로 올라왔습니다. 핵심은 모델이 나빠진 게 아니라, 설정이 최적화되지 않았다는 것입니다.
GPT-5.4의 약점과 그 해결법
튜닝 과정에서 드러난 GPT-5.4의 특징은 무엇일까요? Payne이 발견한 주요 실패 패턴은 다음과 같습니다:
- 기본적으로 Claude보다 “톤”이 약함 (의도한 음성이 잘 드러나지 않음)
- 상충되는 지시문에 더 민감함 (명확한 우선순위가 필요)
- 톤이나 의도를 놓칠 가능성이 높음
- 실행보다 설명하려는 경향 (과도한 전제 설명)
이런 패턴들은 모두 프롬프트 층면에서 해결 가능합니다. 예를 들어, “설명하지 말고 실행하라”는 지시를 더 강하게 주거나, 에이전트의 성격과 톤을 더 명시적으로 정의하는 식입니다. 실제로 Payne은 SOUL.md, AGENTS.md 같은 부트스트랩 파일들을 수정해서 이 문제들을 해결했고, 그 결과 성능이 극적으로 올라갔습니다.
모델 전환을 고민할 때 해야 할 일
단순히 모델 이름만 바꾸면 안 됩니다. Payne이 제시하는 4단계 프로세스를 따르면 더 객관적인 판단이 가능합니다.
1단계: 자신의 작업 유형 분류하기
에이전트가 실제로 하는 일을 5-8개 카테고리로 나눕니다. Payne의 경우 뉴스레터 작성, 코딩, 계획 수립, 반응 방식, 성격 표현 같은 식이었습니다. 여기서 중요한 건 벤치마크 공통 작업이 아니라, 당신이 정말 사용하는 작업들입니다.
2단계: 각 카테고리별 테스트 프롬프트 만들기
각 작업 유형마다 5개 정도의 현실적인 프롬프트를 작성합니다. 예를 들어 “코딩” 카테고리라면 “API 연동 코드 작성”, “에러 디버깅”, “성능 최적화” 같이 실제로 자주 요청하는 유형들을 포함시킵니다.
3단계: Claude와 GPT-5.4 양쪽에서 실행하고 비교하기
같은 프롬프트를 두 모델에 모두 실행해서 결과를 남겨둡니다. 이때 중요한 건 출력 결과 자체가 아니라 “실패한 부분”을 명확히 보는 것입니다. GPT-5.4가 어디서 Claude와 달랐는지 패턴을 찾아냅니다.
4단계: 부트스트랩 파일 수정 후 재테스트
실패 패턴을 보고 SOUL.md나 AGENTS.md 같은 파일을 수정합니다. 예를 들어 GPT-5.4가 자꾸 장황하게 설명하려고 한다면, “조용히 실행하라. 설명하지 말 것”이라는 명시적 지시를 추가합니다. 또는 명령의 우선순위를 더 명확하게 정의하거나, 원하는 톤을 더 강하게 표현할 수도 있습니다.
이 과정을 한두 번만 거쳐도 GPT-5.4의 성능이 어떻게 변하는지 명확하게 볼 수 있습니다.
Claude는 여전히 강력하지만
이 글의 핵심은 “GPT가 더 좋다”는 게 아니라 “공정하게 비교하면 생각보다 나쁘지 않다”는 것입니다. Payne도 인정하듯이, 광범위한 코딩과 에이전트 작업에서는 Claude(Opus)가 여전히 더 강력합니다. 벤치마크 결과도 GPT-5.4가 특정 영역(Terminal-Bench, MCP Atlas 같은)에서 강세를 보이지만, 전반적으로는 Opus가 우수합니다.
하지만 가격 측면에서 보면 다릅니다. “더 비싼 모델이 더 좋다”는 건 당연하지만, “충분히 좋은 모델을 프롬프트 튜닝으로 더 좋게 만들 수 있다면?” 이 질문이 실무에서는 중요합니다. Payne의 실험은 그게 충분히 가능하다는 걸 보여줍니다.
결론: 측정하지 않은 것은 개선할 수 없다
Payne이 제시하는 마지막 조언은 간단하지만 강력합니다. 다른 개발자의 evals를 믿지 말고, 자신의 실제 사용 사례로 직접 테스트하라는 것입니다. 각자의 에이전트는 다른 작업을 하고 있고, 따라서 어떤 모델이 맞는지도 다릅니다.
모델을 바꾸기 전에 이 과정을 거쳐보세요. 놀라운 결과가 나올 수 있습니다.
참고자료:
- One Soul, Many Minds – Superada AI

답글 남기기