Ornith-1.0은 코딩 에이전트가 단순히 코드를 생성하는 수준을 넘어, 작업 수행에 필요한 스캐폴딩(scaffolding)과 학습 전략을 스스로 개선하게 하려는 연구다. Deep Reinforce는 이를 “Self-Scaffolding LLMs for Agentic Coding”으로 소개한다.
핵심 아이디어
에이전틱 코딩은 모델의 단일 응답 품질만으로 결정되지 않는다. 파일 탐색, 계획, 테스트 실행, 실패 분석, 패치 반복 같은 하네스 행동이 함께 성능을 만든다. Ornith-1.0은 이 스캐폴딩을 고정 프롬프트로 두지 않고 학습 대상으로 본다.
왜 중요한가
코딩 모델 경쟁은 점점 “모델 가중치”와 “에이전트 하네스”의 결합 경쟁이 되고 있다. 같은 모델도 어떤 도구를 언제 호출하고, 실패를 어떻게 요약하며, 테스트 피드백을 어떻게 반영하는지에 따라 성능이 크게 달라진다.
관련 문서
- agent-harness — 에이전트 하네스 엔지니어링
- agent-rl-training-frameworks — 에이전트 강화학습 프레임워크 선택 가이드
- self-improving-agent-loops — 결과를 기억하고 다음 실행을 고치는 에이전트 구조
참고 자료
- Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding — Deep Reinforce (2026-06)