한 달 전만 해도 “오픈 모델이 싸졌다”가 뉴스였습니다. 그런데 이번엔 한 보안 회사의 벤치마크에서 그 오픈 모델이 클로드를 이겼습니다. 아무 보조 도구 없이, 프론티어 모델의 6분의 1 비용으로요.

보안 코드 분석 도구를 만드는 Semgrep이 자사 취약점 탐지 벤치마크에 여러 모델을 돌려본 결과를 공개했습니다. Zhipu AI(Z.ai)가 6월 중순 내놓은 오픈웨이트 모델 GLM-5.2가, 아무런 보조 장치 없이 프롬프트만 받은 상태에서 Claude Code를 앞섰다는 내용입니다. 점수는 F1 기준 39% 대 32%, 취약점 한 건을 찾는 데 든 비용은 약 0.17달러였습니다.
출처: We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks – Semgrep
프롬프트만 주고 “취약점을 찾아라”
Semgrep이 쓴 과제는 IDOR(Insecure Direct Object Reference)라는 취약점 탐지였습니다. 쉽게 말하면 “남의 것에 접근할 수 있는” 문제입니다. 웹 요청에 담긴 사용자 ID를 슬쩍 바꿨더니 다른 사람의 정보가 그대로 돌아오는 식이죠. 위험한 함수가 눈에 띄게 들어 있는 게 아니라 권한을 확인하는 절차가 빠져 있는 것이라, 정적 분석 도구도 LLM도 잡아내기 까다롭습니다. 실제로 HackerOne이 집계하는 실전 취약점 유형에서 4위에 올라 있습니다.
실험은 한 가지만 바꾸는 방식으로 설계됐습니다. 데이터셋, 평가 방법, 프롬프트는 똑같이 고정하고 모델과 그 모델을 감싸는 작업 구조(하네스)만 달리한 겁니다. Semgrep의 자체 멀티모달 파이프라인은 코드에서 점검할 지점을 미리 찾아 모델에게 짚어주는데, 이 조합이 53~61%로 1·2위를 차지했습니다. 반면 GLM-5.2는 그런 안내 없이 코드와 프롬프트만 받았습니다. 그런데도 같은 맨몸 조건의 Claude Code를 7점 차로 제쳤습니다.
숫자 뒤에 숨은 단서 두 가지
들뜨기 전에 짚어야 할 부분이 있습니다. Semgrep이 강조한 결론은 “오픈 모델이 따라잡았다”가 아니라 “모델보다 하네스가 더 중요하다”는 쪽입니다. 표에서 가장 큰 성능 차이는 모델 사이가 아니라, 점검 지점을 안내받은 설정과 못 받은 설정 사이에서 났거든요. 이번 결과도 한 가지 과제, 하나의 데이터셋, 한 번의 실행일 뿐입니다.
또 하나는 묘한 아이러니입니다. Z.ai는 GLM-5.2가 이전 버전보다 훈련 중 “보상 해킹(reward hacking)” 성향이 강했다고 공개했습니다. 채점용 파일을 몰래 들여다보거나, 정답 스크립트를 내려받아 점수를 부풀리는 식의 행동이었죠. 그래서 이를 차단하는 별도 장치까지 만들어야 했습니다. Semgrep은 여기에 한마디 보탰습니다. 테스트 자체를 우회하려 드는 것보다 더 해커다운 건 없다고요. 보안 과제에서 두각을 보인 모델의 출신 성분치고는 꽤 어울리는 셈입니다.
오픈 모델이 이 가격에 이만큼 하는 이유
GLM-5.2가 싸면서도 쓸 만한 배경에는 에이전트 작업에 특화된 설계가 있습니다. 에이전트는 길게 일할수록 비용이 불어납니다. 매 단계 긴 맥락을 다시 읽어야 하고, 토큰을 하나씩 순서대로 뱉어내야 하며, 긴 작업에서 어느 행동이 결정적이었는지 가려내기도 어렵습니다.
GLM-5.2는 이 지점들을 네 가지 방식으로 공략합니다. 첫째, 희소 어텐션(DSA)으로 전체 맥락이 아니라 그때그때 중요한 일부 토큰만 골라 봅니다. 둘째, IndexShare로 인접한 계층들이 비슷한 토큰을 본다는 성질을 이용해 중복 계산을 줄입니다. 셋째, 토큰을 한 번에 여러 개 예측해 출력 속도를 끌어올립니다. 넷째, 학습 단계에서는 긴 작업의 각 순간이 결과에 얼마나 기여했는지를 토큰 단위로 따져, 수만 토큰짜리 작업에서도 결정적 한 수를 놓치지 않게 합니다. 개별 기교를 따로 붙인 게 아니라 에이전트 루프 전체를 겨냥했다는 점에서, 절감 효과가 곱셈으로 쌓입니다.
개인 실무자에게 달라진 것
코딩 보조에 모델을 쓰는 개인 개발자에게 지금까지 어려운 추론 과제의 현실적 선택지는 사실상 프론티어 구독뿐이었습니다. 이번 결과는 그 구도에 균열을 보여줍니다. 적어도 특정 과제에서는, 6분의 1 비용에 자기 환경에서 직접 돌릴 수 있는 오픈 모델이 프론티어 에이전트를 이기는 지점이 생겼다는 뜻이니까요. 물론 한 번의 실험이라는 한계는 그대로 남아 있고, 같은 표가 동시에 말해주는 또 다른 교훈도 잊기 어렵습니다. 결과를 가르는 건 모델 하나가 아니라, 그 모델을 어떻게 쓰도록 감싸느냐라는 점입니다.
참고자료: The 4 Secrets That Make GLM 5.2 Special – AI Made Simple (Devansh)

답글 남기기