AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

7B 파라미터로 GPT-4o를 이긴 AI 에이전트: Microsoft Fara-7B

AI가 당신 대신 웹사이트를 탐색하고, 폼을 작성하고, 예약까지 완료한다면 어떨까요? 하지만 여기엔 두 가지 걸림돌이 있었습니다. 첫째, 이런 작업을 수행하려면 GPT-4o 같은 거대한 모델이 필요했고, 둘째, 민감한 데이터를 클라우드로 보내야 했죠. Microsoft가 이 두 문제를 동시에 해결한 Fara-7B를 공개했습니다.

사진 출처: Microsoft Research

Microsoft Research가 발표한 Fara-7B는 70억 개의 파라미터만으로 컴퓨터를 직접 조작하는 AI 에이전트입니다. 웹 내비게이션 벤치마크 WebVoyager에서 73.5%의 성공률을 기록하며, GPT-4o(65.1%)와 같은 크기의 다른 모델(UI-TARS 66.4%)을 모두 제쳤습니다. 가장 중요한 건 이 모델이 여러분의 PC에서 직접 실행된다는 점이죠.

출처: Fara-7B: An Efficient Agentic Model for Computer Use – Microsoft Research

사람처럼 보고, 사람처럼 움직이다

Fara-7B의 가장 독특한 특징은 웹페이지를 “보는” 방식입니다. 대부분의 AI 에이전트가 접근성 트리(accessibility tree)라는 웹페이지의 구조 정보를 활용하는 반면, Fara-7B는 순수하게 스크린샷만으로 작동합니다. 마치 사람이 화면을 보듯이 말이죠.

모델은 브라우저 화면을 시각적으로 인식한 뒤, 마우스로 클릭할 좌표를 직접 예측하고, 키보드로 텍스트를 입력하며, 스크롤도 합니다. 복잡한 코드 구조를 파악할 필요 없이 눈에 보이는 대로 행동하는 겁니다. Microsoft Research의 Yash Lara는 이를 “픽셀 주권(pixel sovereignty)”이라고 표현했습니다. 스크린샷과 추론 과정이 모두 디바이스 내부에 머물러 있으니까요.

이 접근법은 단순해 보이지만 실제로는 매우 효율적입니다. Fara-7B는 평균 16단계 만에 작업을 완료하는 반면, 같은 기반 모델을 사용하는 UI-TARS-1.5-7B는 41단계가 필요했습니다. 속도와 비용 면에서 압도적인 우위죠.

작지만 강력한, 그리고 안전한

70억 파라미터는 AI 모델로서는 상당히 작은 크기입니다. 요즘 화제가 되는 모델들이 수백억에서 조 단위의 파라미터를 자랑하는 걸 생각하면 말이죠. 하지만 이 작은 크기가 바로 Fara-7B의 핵심 강점입니다.

작은 모델은 일반 PC에서도 실행 가능하다는 의미입니다. 특히 Copilot+ PC 같은 NPU(신경망 처리 장치)가 탑재된 기기에서는 더욱 빠르게 작동하죠. 클라우드로 데이터를 전송할 필요가 없으니 응답 지연도 줄고, 민감한 정보도 외부로 유출될 위험이 없습니다. 금융 데이터를 다루거나 내부 계정을 관리하는 기업 입장에서는 큰 매력이죠.

안전장치도 꼼꼼합니다. Fara-7B는 “Critical Point”라는 개념으로 훈련됐습니다. 이메일을 보내거나 결제를 진행하는 등 되돌릴 수 없는 행동을 하기 직전에 모델이 자동으로 멈추고 사용자에게 승인을 요청합니다. 데모 영상을 보면 Xbox 컨트롤러를 장바구니에 담은 뒤, 결제 직전에 “계속 진행할까요?”라고 묻는 장면이 나옵니다.

Microsoft는 이 모델을 Magentic-UI라는 연구용 인터페이스와 함께 공개했습니다. 사용자가 에이전트의 모든 행동을 추적하고 필요할 때 개입할 수 있도록 설계된 환경이죠. 모델은 MIT 라이센스로 Hugging Face와 Microsoft Foundry에 공개돼 있어 누구나 실험해볼 수 있습니다.

14만 5천 개의 합성 데이터가 만든 마법

이렇게 작은 모델이 어떻게 이런 성능을 낼 수 있었을까요? 비밀은 데이터 생성 방식에 있습니다. 웹 에이전트를 훈련하려면 엄청난 양의 데이터가 필요한데, 사람이 일일이 “이 버튼을 클릭하고, 이 텍스트를 입력하고…” 같은 작업을 기록하는 건 비용도 많이 들고 비현실적입니다.

Microsoft는 Magentic-One이라는 멀티 에이전트 시스템을 활용했습니다. 하나의 “오케스트레이터” 에이전트가 계획을 세우고, “웹서퍼” 에이전트가 실제로 브라우저를 조작하며 작업을 완료합니다. 사용자 입력이 필요하면 “사용자 시뮬레이터” 에이전트가 개입하죠. 이렇게 생성된 작업 경로(trajectory)는 세 가지 검증 에이전트가 평가합니다. 작업 의도와 일치하는지, 완료 기준을 충족했는지, 스크린샷이 성공을 뒷받침하는지를 확인하는 겁니다.

최종적으로 14만 5천 개의 성공적인 작업 경로, 총 100만 단계의 데이터가 만들어졌습니다. 이 복잡한 멀티 에이전트 시스템의 지혜를 Fara-7B 하나로 압축(distillation)한 거죠. 마치 숙련된 팀의 노하우를 한 명의 전문가에게 전수한 것과 비슷합니다.

실전 성능과 한계

Fara-7B는 WebVoyager뿐 아니라 Online-Mind2Web(34.1%), DeepShop(26.2%) 등 여러 벤치마크에서 동급 최고 성능을 보였습니다. Microsoft가 새로 공개한 WebTailBench에서는 38.4%를 기록했는데, 이 벤치마크는 영화 티켓 예약, 레스토랑 예약, 가격 비교, 구직 신청 등 기존 벤치마크에서 다루지 않았던 실용적 작업들을 포함합니다.

독립적인 평가도 이뤄졌습니다. Browserbase라는 외부 기관이 인간 검증자를 동원해 테스트한 결과, WebVoyager에서 62%의 성공률을 기록했죠. 실험실이 아닌 실제 환경에서도 충분히 실용적이라는 의미입니다.

물론 한계도 분명합니다. 복잡한 작업에서는 정확도가 떨어지고, 지시를 잘못 따르거나 환각(hallucination)을 일으킬 수 있습니다. Microsoft도 이를 인정하며 현재 버전을 “실험적 출시(experimental release)”라고 표현했습니다. 상용 배포가 아니라 개념 증명과 파일럿 프로젝트에 적합한 수준이라는 거죠.

하지만 방향은 명확합니다. Yash Lara는 “앞으로도 모델을 더 크게 만드는 게 아니라 더 똑똑하고 안전하게 만드는 데 집중할 것”이라고 밝혔습니다. 다음 단계는 강화학습을 통해 모델이 샌드박스 환경에서 시행착오를 거치며 실시간으로 학습하는 방식입니다.

컴퓨터 사용 에이전트의 새 지평

Fara-7B는 단순히 성능 좋은 모델 하나를 더 추가한 게 아닙니다. “AI 에이전트는 클라우드에서만 작동한다”는 고정관념을 깨뜨린 사례죠. 작은 모델도 충분히 복잡한 작업을 수행할 수 있고, 디바이스에서 직접 실행하면서도 프라이버시와 효율성을 동시에 확보할 수 있다는 걸 보여줬습니다.

오픈소스 공개는 또 다른 의미를 갖습니다. 개발자들이 이 모델을 기반으로 더 나은 에이전트를 만들고, 새로운 활용 사례를 발굴할 수 있는 기회가 열린 거죠. 지금은 폼 작성과 예약 정도지만, 머지않아 훨씬 더 복잡한 워크플로우를 자동화하는 개인 AI 어시스턴트가 우리 PC 안에 상주하게 될지도 모릅니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다