Gemini 3.0 Pro는 Gemini API로 코드를 짜는 작업에서 성공률이 6.8%에 불과했습니다. 구글이 만든 모델이 구글 자신의 API를 제대로 쓰지 못한다는 뜻입니다. Google DeepMind가 이 문제를 해결하기 위해 만든 Agent Skill을 소개합니다.

Google DeepMind가 AI 코딩 에이전트의 구조적 문제를 다룬 글을 공식 개발자 블로그에 게재했습니다. gemini-api-dev라는 이름의 Agent Skill을 개발해 117개 코딩 태스크 벤치마크를 수행한 결과, 최고 모델(Gemini 3.1 Pro Preview)의 성공률이 28.2%에서 96.6%로 뛰어올랐습니다.
출처: Closing the knowledge gap with agent skills – Google Developers Blog
AI가 자기 자신을 모른다는 문제
LLM은 특정 시점에 훈련을 마치고 나면 지식이 고정됩니다. 그런데 소프트웨어 생태계는 매일 바뀝니다. 새로운 SDK가 나오고, API 사양이 업데이트되고, 모범 사례도 조금씩 달라집니다.
문제는 이것이 남의 기술에만 해당하는 게 아니라는 점입니다. Google DeepMind는 자사 모델들이 훈련 당시 자기 자신에 대한 정보도 충분히 갖추지 못한 상태로 배포된다는 사실을 인정합니다. Gemini 3.0 Pro가 Gemini API 코드 작업에서 6.8%밖에 통과하지 못한 것도 이 때문입니다. 모델이 구버전 SDK를 사용하거나, 이미 바뀐 패턴으로 코드를 생성하는 것이죠.
Agent Skill의 구성
Google DeepMind가 만든 gemini-api-dev 스킬은 에이전트에게 다음 네 가지 정보를 제공합니다.
- Gemini API의 주요 기능 전반 설명
- 각 언어별(Python, TypeScript) 현재 SDK와 모델 목록
- SDK별 기본 샘플 코드
- 공식 문서 진입점 목록 (최신 정보를 직접 가져올 수 있도록)
스킬 자체는 텍스트 파일 형태의 지침입니다. 에이전트가 코딩 작업을 받으면 activate_skill 도구를 통해 스킬을 불러오고, 필요하면 fetch_url로 공식 문서에서 최신 내용을 직접 끌어옵니다. 스킬이 모든 정보를 담고 있는 게 아니라 “어디서 찾아야 하는지”를 알려주는 방식입니다.
성능 향상, 단 신형 모델에 한해서
벤치마크 결과는 모델 세대에 따라 크게 갈렸습니다.
Gemini 3 시리즈는 스킬 적용 후 거의 모든 카테고리에서 극적인 성능 향상을 보였습니다. Gemini 3.1 Pro Preview는 28.2% → 96.6%로, Gemini 3.0 Pro와 Flash도 6.8%에서 크게 끌어올렸습니다. 반면 구형 Gemini 2.5 시리즈는 개선폭이 훨씬 작았습니다.
Google은 이 차이를 추론 능력에서 찾습니다. 스킬은 “언제 어떤 도구를 써야 하는지 판단”을 모델에 맡깁니다. 추론이 약한 모델은 스킬이 있어도 적절히 활용하지 못한다는 것이죠.
한계도 솔직하게
Google DeepMind는 이 방식의 한계도 함께 짚었습니다. Vercel이 진행한 실험에서는 AGENTS.md라는 단순한 마크다운 파일 방식이 오히려 스킬보다 높은 성공률(100%)을 기록했습니다. 스킬은 에이전트가 스스로 판단해 호출해야 하는데, 절반 이상의 경우에서 에이전트가 스킬을 아예 쓰지 않은 것이 원인이었습니다.
또 하나의 문제는 갱신입니다. 스킬 파일이 오래되면 오히려 잘못된 정보를 제공할 수 있는데, 지금은 사용자가 수동으로 업데이트해야 합니다. Google은 이에 대한 대안으로 MCP(Model Context Protocol) 방식도 검토하고 있다고 밝혔습니다.
Agent Skill, AGENTS.md, MCP—어떤 방식이 코딩 에이전트의 지식 공백을 가장 효과적으로 메울지는 아직 열린 문제입니다. 구체적인 벤치마크 방법론과 카테고리별 세부 결과는 원문에서 확인할 수 있습니다.
참고자료: A simple text file beats complex skill systems for AI coding agents – The Decoder

답글 남기기