AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 코딩 모델이 스스로 훈련 방식을 짠다, Ornith과 SIA가 보여준 자기개선의 두 갈래

지금까지 AI 코딩 도구의 성능 한계는 사람이 짜둔 harness, 그러니까 프롬프트, 재시도 로직, 검색 절차 같은 작업 틀에 갇혀 있었습니다. 모델이 아무리 똑똑해도 그 틀은 엔지니어가 손으로 설계해 고정해 둔 것이었죠. 그런데 최근 거의 같은 시기에, 서로 다른 두 팀이 그 틀 자체를 모델에게 맡겨버리는 실험을 내놓았습니다.

사진 출처: DeepReinforce

하나는 DeepReinforce가 공개한 오픈소스 코딩 모델 Ornith-1.0이고, 다른 하나는 Hexo Labs가 발표한 SIA 논문입니다. 두 작업은 서로를 인용하지도, 같은 팀이 만든 것도 아닙니다. 그런데 출발점이 똑같습니다. “AI를 개선하는 진짜 병목은 결국 사람”이라는 진단이죠. 흥미로운 건 같은 진단에서 처방이 갈렸다는 점입니다.

출처:

모델이 자기 훈련 발판을 직접 쓴다

강화학습으로 코딩 에이전트를 훈련할 때, 보통은 사람이 만든 harness가 모델의 풀이 과정을 안내합니다. 어떤 순서로 도구를 부르고, 실패하면 어떻게 다시 시도하고, 어떤 식으로 답을 탐색할지를 미리 정해두는 겁니다. Ornith-1.0은 여기서 발상을 뒤집었습니다. 이 harness를 고정된 설계물이 아니라, 모델이 학습하며 함께 진화시키는 대상으로 본 거죠.

각 학습 단계는 두 번에 걸쳐 진행됩니다.

  1. 주어진 과제와 직전에 쓰던 발판을 보고, 모델이 더 나은 발판을 먼저 제안합니다.
  2. 그 발판과 과제 설명을 바탕으로 실제 풀이를 생성합니다.

풀이에서 나온 보상은 두 단계 모두에 전달됩니다. 그래서 모델은 더 좋은 답을 내놓도록만 훈련되는 게 아니라, 그 답을 끌어내는 작업 방식 자체를 더 잘 짜도록 훈련됩니다. 이 과정이 반복되면 높은 보상을 부르는 발판이 살아남고, 과제 유형별 전략이 사람 손을 거치지 않고 저절로 떠오릅니다.

결과는 숫자로 분명합니다. 397B 모델은 Terminal-Bench 2.1에서 77.5, SWE-Bench Verified에서 82.4를 기록해 Claude Opus 4.7(각각 70.3, 80.8)을 두 벤치마크 모두에서 앞섰습니다. 엣지 기기에 올릴 만한 9B 모델조차 자기보다 훨씬 큰 Gemma 4-31B에 맞먹거나 넘어섭니다. 오픈소스(MIT 라이선스)가 이 정도 위치에 올라섰다는 점이 이 발표의 무게입니다.

물론 모델이 발판을 직접 쓰게 두면 새로운 위험이 생깁니다. 테스트 파일을 몰래 읽어 정답을 하드코딩하는 식으로, 과제를 풀지 않고 채점만 통과하려는 보상 해킹이죠. Ornith은 환경과 검증 영역을 모델이 건드릴 수 없게 봉인하고, 규칙 위반을 잡아내는 결정론적 감시와 별도의 판정 모델을 얹어 이를 막습니다.

발판만으로는 부족하다, weight까지 바꿔야 한다

같은 문제를 본 SIA의 결론은 한 걸음 더 나갑니다. 자기개선 연구는 그동안 두 갈래로 갈라져 있었습니다. 한쪽은 harness만 다시 쓰고 모델 가중치는 고정하는 방식(harness-update), 다른 쪽은 가중치만 갱신하고 harness는 고정하는 방식(test-time training)이었죠. SIA는 이 둘이 따로 놀 이유가 없다고 봤습니다.

SIA의 Feedback-Agent는 harness와 weight를 동시에 업데이트합니다. 그리고 중국 법률 분류, GPU 커널 최적화, single-cell RNA 노이즈 제거라는 세 개의 전혀 다른 도메인에서 검증했습니다. 두 레버를 함께 당긴 쪽이 발판만 반복 개선한 쪽을 세 벤치마크 모두에서 앞섰습니다. LawBench에서 기존 최고 대비 25.1% 개선, GPU 커널은 12.4% 더 빠르게, 노이즈 제거는 20.4% 개선이라는 수치가 나왔습니다.

논문이 던지는 메시지는 간결합니다. harness 업데이트는 모델을 ‘에이전트답게’, 즉 어떻게 탐색하고 행동할지를 빚어냅니다. 하지만 그 어떤 프롬프트나 발판으로도 심을 수 없는 도메인 직관은 결국 weight를 바꿔야 생긴다는 겁니다.

여기서 두 작업의 대비가 선명해집니다. Ornith은 harness를 모델이 직접 쓰게 만들어 코딩이라는 한 분야에서 제품 수준의 성능을 실증했습니다. SIA는 harness만으로는 닿지 못하는 지점이 있다는 걸, 세 개의 이질적인 도메인에서 원리로 보여줬습니다. 한쪽은 깊이로, 다른 쪽은 폭으로 같은 질문에 답한 셈입니다.

고정된 레시피에서 스스로 고치는 시스템으로

개인 개발자 입장에서 이 두 소식을 같이 놓고 보면, 우리가 쓰는 코딩 에이전트의 성격이 바뀌는 초기 신호로 읽힙니다. 지금 우리가 다루는 도구 대부분은 누군가 한 번 설계해 고정해 둔 레시피 위에서 움직입니다. 작업 방식을 바꾸려면 사람이 프롬프트와 파이프라인을 다시 손봐야 했죠.

Ornith과 SIA가 보여주는 방향은 그 전제를 흔듭니다. 모델이 자기 작업 방식을 다시 쓰고, 필요하면 자기 가중치까지 갱신하는 쪽으로 가고 있습니다. 아직은 연구와 첫 공개 단계에 가깝지만, “도구를 어떻게 설정할 것인가”라는 질문이 “도구가 스스로 설정을 바꾸게 둘 것인가”로 옮겨가는 흐름의 시작점일 수 있습니다.

흥미로운 건 두 팀이 서로 모른 채 거의 동시에 같은 병목을 향해 움직였다는 사실입니다. 하나의 기술이 무르익을 때 흔히 나타나는 신호죠. SIA가 세 도메인에서 보인 정량 결과와 Ornith의 전체 벤치마크 표는 각각의 원문에 더 자세히 담겨 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다