버려지던 신호를 학습으로, OpenClaw-RL이 AI 훈련을 바꾸는 방법

2026-03-20

﹒

2 minutes

AI 에이전트는 매 대화마다 피드백을 받습니다. 사용자가 같은 질문을 다시 하거나, “그게 아니라 이렇게 했어야죠”라고 말할 때, 혹은 실행한 명령이 오류를 낼 때—이 모든 반응이 에이전트가 잘했는지 못했는지를 알려줍니다. 그런데 지금까지 대부분의 시스템은 이 신호를 다음 응답의 문맥으로만 쓰고, 학습에는 전혀 활용하지 않았습니다.

사진 출처: The Decoder / Wang et al.

Princeton 대학교 연구팀이 이 낭비를 없애는 강화학습 프레임워크 OpenClaw-RL을 공개했습니다. 대화, 터미널 명령, GUI 조작 등 에이전트가 환경과 상호작용할 때 자연스럽게 발생하는 신호를 실시간 학습 데이터로 전환하는 방식으로, 단 8번의 학습 스텝 만에 개인화 점수가 0.17에서 0.76으로 뛰는 결과를 보였습니다.

출처: OpenClaw-RL: Train Any Agent Simply by Talking – Yinjie Wang et al., Princeton University (arXiv, 2026.03)

팔로업 신호에는 두 가지 정보가 담겨 있다

연구팀이 주목한 건 팔로업 신호가 단순한 성공/실패 여부를 넘어선다는 점입니다. 신호에는 두 가지 층위가 있습니다.

첫 번째는 평가 신호입니다. 사용자가 같은 질문을 반복하면 불만족을 나타내고, 자동화 테스트가 통과하면 성공을 뜻합니다. 이 신호들은 별도의 수동 레이블링 없이 자연스럽게 각 행동의 품질을 알려줍니다.

두 번째는 방향 신호입니다. “파일부터 확인했어야 했어요”라는 피드백은 무엇이 잘못됐는지만 알려주는 게 아니라, 어떻게 했어야 했는지를 직접 가리킵니다. 기존 강화학습의 보상 시스템은 이런 내용 수준의 방향 정보를 숫자 하나로 압축해버리면서 정작 유용한 정보를 다 잃었습니다.

두 가지 학습 방식의 조합

OpenClaw-RL은 두 가지 최적화 방법을 함께 씁니다.

Binary RL은 팔로업 신호를 기반으로 각 행동을 좋음/나쁨/중립으로 분류해 표준 보상값으로 변환합니다. 단순하지만 모든 종류의 상호작용에 폭넓게 적용할 수 있습니다.

Hindsight-Guided On-Policy Distillation(OPD) 은 더 정밀합니다. 평가 모델이 팔로업 신호에서 1~3문장 분량의 구체적인 수정 힌트를 추출한 뒤, 이를 원래 질문에 덧붙입니다. 그리고 같은 모델이 “처음부터 이 힌트를 알았다면 각 토큰을 얼마나 다르게 생성했을까”를 계산합니다. 이 차이가 토큰 단위의 방향 신호가 됩니다. 별도의 교사 모델이나 사전 수집 데이터가 없어도 됩니다.

두 방법을 함께 쓸 때 가장 좋은 결과가 나왔습니다. Binary RL이 전체 커버리지를 확보하고, OPD가 정보량이 많은 케이스에서 정밀한 수정을 담당하는 구조입니다.

4개의 독립 컴포넌트, 끊김 없는 학습

아키텍처는 4개의 독립된 컴포넌트로 나뉩니다. 하나는 쿼리에 응답하고, 하나는 환경을 관리하고, 하나는 응답 품질을 평가하고, 하나는 실제 학습을 담당합니다. 각 컴포넌트는 서로를 기다리지 않고 비동기로 동작합니다. 에이전트가 다음 사용자 요청에 응답하는 동안, 이전 응답 평가와 가중치 업데이트가 병렬로 진행됩니다.

개인용 에이전트의 경우 사용 중 중단 없이 업데이트가 배포되고, 범용 에이전트는 최대 128개의 병렬 클라우드 인스턴스로 확장됩니다.

실험은 Qwen3-4B 모델로 진행됐습니다. 개인화 시나리오에서 8 스텝 만에 점수가 4배 이상 뛰었고, 터미널·GUI·소프트웨어 엔지니어링·도구 호출 등 범용 에이전트 환경에서도 전반적인 성능 향상이 확인됐습니다.

대화 속에서 배우는 에이전트

OpenClaw-RL이 흥미로운 건 학습 패러다임의 변화 방향 때문입니다. 기존 강화학습은 대규모 데이터를 미리 수집하고 별도 학습 단계를 거쳐야 했습니다. 이 프레임워크는 그 경계를 지웁니다. 에이전트가 실제로 사용되는 순간 자체가 학습의 재료가 됩니다.

특히 개인용 에이전트에서는 사용자마다 다른 맥락과 스타일에 맞춰 지속적으로 적응하는 가능성이 생깁니다. 연구팀은 이 프레임워크가 대화부터 소프트웨어 엔지니어링 작업까지 여러 상호작용 스트림을 단일 학습 루프에서 동시에 처리한 첫 사례라고 설명합니다.

코드와 실험 상세 결과는 논문과 GitHub에서 확인할 수 있습니다.

참고자료:

OpenClaw-RL GitHub
OpenClaw-RL trains AI agents “simply by talking” – The Decoder

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

버려지던 신호를 학습으로, OpenClaw-RL이 AI 훈련을 바꾸는 방법

팔로업 신호에는 두 가지 정보가 담겨 있다

두 가지 학습 방식의 조합

4개의 독립 컴포넌트, 끊김 없는 학습

대화 속에서 배우는 에이전트

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Gemini가 수백만 대 차량에 탑재된다, Google Assistant와 무엇이 달라지나

Claude Code가 캐시 적중률에 SEV를 선언하는 이유, 프롬프트 캐싱 설계법

ChatGPT 인용 연구, 포괄적 콘텐츠보다 하나에 집중한 글이 유리

Blender, Adobe, Ableton에서 Claude 쓴다, 크리에이터를 위한 AI 커넥터 출시