AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

SkillOpt, 마크다운 파일 하나로 GPT-5.5를 23점 끌어올린 방법

모델 가중치는 전혀 건드리지 않고, 에이전트에게 넘기는 텍스트 파일 하나만 바꿨는데 GPT-5.5의 평균 점수가 23점 뛰었습니다. 파인튜닝도, 새 모델도 없었습니다.

사진 출처: The Decoder

Microsoft와 중국 3개 대학 공동 연구팀이 AI 에이전트의 “스킬 문서”를 딥러닝 방식으로 학습시키는 방법론 SkillOpt를 발표했습니다. 모델 자체가 아닌 모델이 읽는 지침서를 학습시킨다는 발상으로, 6개 벤치마크 전 구간에서 기존 방식을 앞섰습니다.

출처: SkillOpt: Executive Strategy for Self-Evolving Agent Skills – arXiv

스킬 문서란 무엇인가

AI 에이전트를 실무에 배포할 때는 보통 시스템 프롬프트나 별도의 지침 파일을 함께 넘깁니다. 도구 사용 규칙, 출력 형식, 흔한 실수 패턴 같은 내용을 담은 이 파일이 바로 “스킬 문서”입니다. Anthropic이 지난해 Claude에 도입한 모듈형 스킬 시스템도 같은 방식으로 작동합니다.

지금까지 스킬 문서를 만드는 방법은 세 가지였습니다. 사람이 직접 작성하거나, LLM이 한 번에 생성하거나, 느슨하게 자기 수정하는 방식. 셋 다 공통된 한계가 있었습니다. 실제로 성능이 개선됐는지 보장할 수 없고, 체계적인 최적화 과정이 없다는 점이었죠.

스킬 문서를 ‘학습’시키다

SkillOpt는 스킬 문서를 마치 모델 가중치처럼 반복 학습시킵니다. 핵심 구조는 이렇습니다.

  1. 별도의 옵티마이저 모델이 에이전트의 실행 로그를 읽고 반복되는 오류·성공 패턴을 분석합니다.
  2. 스킬 문서에 작은 수정(추가·삭제·교체)을 제안합니다.
  3. 그 수정이 검증 세트에서 실제로 성능을 개선했을 때만 적용됩니다.
  4. 거부된 수정은 버퍼에 쌓여 이후 반복 학습의 부정적 사례로 활용됩니다.
  5. 에포크가 끝날 때마다 안정적인 편집 방향을 장기 보존합니다.

딥러닝의 학습률, 스케줄러, 그래디언트 스무딩 개념이 텍스트 레벨에서 그대로 구현된 셈입니다. 학습이 끝나면 옵티마이저 모델은 사라지고, 에이전트는 완성된 마크다운 파일(300~2,000 토큰)만 받습니다. 추론 시점에서 추가 비용은 없습니다.

왜 이 결과가 주목받는가

성능 향상 자체도 인상적이지만, 더 흥미로운 건 결과물의 성격입니다. SkillOpt가 학습한 최종 스킬 문서는 마치 숙련된 실무자가 하루 작업 후 메모한 것처럼 읽힌다고 논문은 말합니다. 스프레드시트 작업에서는 “수식 대신 계산된 값을 직접 범위에 써넣을 것”, 탐색 환경에서는 “목표 장소로 이동하기 전에 반드시 대상 물체를 먼저 집을 것” 같은 식의 규칙이 생성됩니다. 특정 태스크가 아닌 절차를 기술하는 언어입니다.

전이 가능성도 실용적입니다. 더 큰 모델에서 학습된 스킬이 작은 모델에서도 성능을 높이고, Codex 환경에서 훈련된 스킬이 Claude Code에서도 그대로 통합니다. 수학 올림피아드 문제로 최적화한 스킬이 관련 벤치마크에 별도 학습 없이 적용되기도 했습니다.

에이전트 자기개선 연구들이 점점 모델 가중치를 직접 수정하는 방향으로 가는 가운데, SkillOpt는 반대 방향을 선택했습니다. 모델은 얼려두고, 모델이 읽는 문서만 정교하게 만드는 것. 복잡한 파이프라인 없이도 읽을 수 있는 텍스트 파일 하나로 이만한 성능 차이를 만든다는 점에서, 에이전트 최적화의 현실적인 대안으로 자리잡을 가능성이 있습니다.

참고자료: Microsoft’s SkillOpt boosts GPT-5.5 by using nothing but a trained Markdown file – The Decoder


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다