
허깅 페이스의 오픈 컴퓨터 에이전트는 텍스트 명령어를 통해 가상 컴퓨터를 조작할 수 있는 웹 기반 AI 에이전트입니다.
AI 에이전트 기술의 새로운 전환점
2025년 5월 7일, 오픈소스 AI 생태계의 중심축인 허깅 페이스(Hugging Face)가 ‘오픈 컴퓨터 에이전트(Open Computer Agent)’를 출시했습니다. 이 도구는 사용자가 자연어 명령어만으로 가상 컴퓨터를 원격으로 제어할 수 있게 해주는 무료 클라우드 호스팅 AI 에이전트입니다. 이는 OpenAI가 월 200달러라는 높은 구독료를 받고 있는 오퍼레이터(Operator)와 유사한 기능을 제공하지만, 무료로 이용할 수 있다는 점에서 주목할 만한 가치가 있습니다.
오픈 컴퓨터 에이전트는 기본적으로 Linux 환경에서 작동하며 Firefox와 같은 일반적인 애플리케이션을 사용해 사용자의 명령을 수행합니다. 예를 들어, 웹사이트 열기, 방향 검색하기 등의 기본적인 명령은 효과적으로 처리할 수 있습니다.
기술적 구성 요소: 허깅 페이스의 오픈소스 파워
이 혁신적인 도구의 핵심에는 세 가지 주요 기술 요소가 있습니다:
- smolagents: 허깅 페이스가 개발한 경량 에이전트 프레임워크로, 약 1,000줄의 코드로 구성되어 있습니다. 이 프레임워크는 최소한의 추상화를 유지하면서 강력한 에이전트를 구축할 수 있게 해줍니다.
- Qwen2-VL-72B: 시각 정보를 이해하고 처리할 수 있는 강력한 비전-언어 모델입니다. 이 모델은 화면에 표시된 내용을 이해하고 적절한 액션을 취할 수 있게 해줍니다.
- E2B Desktop: 안전한 샌드박스 환경에서 코드 실행을 가능하게 해주는 기술입니다.

Qwen2-VL 모델은 다양한 해상도의 이미지를 처리할 수 있는 동적 해상도 지원 기능을 갖추고 있습니다. (출처: qwenlm.github.io)
OpenAI 오퍼레이터와의 비교: 오픈소스의 도전
OpenAI의 오퍼레이터는 2025년 1월에 출시된 이후 웹사이트를 인간처럼 조작하고, 양식을 작성하며, 심지어 구매까지 할 수 있는 능력으로 주목받았습니다. 그러나 월 200달러라는 구독료는 많은 사용자와 개발자에게 부담이 될 수 있습니다.
반면 허깅 페이스의 오픈 컴퓨터 에이전트는 다음과 같은 차별점을 제공합니다:
- 비용: 완전 무료로 제공되며, 오픈소스로 공개되어 있습니다.
- 맞춤화: 소스 코드가 공개되어 있어 개발자가 자신의 요구에 맞게 수정할 수 있습니다.
- 투명성: 블랙박스가 아닌 투명한 작동 방식을 제공합니다.
- 모델 불가지론적 설계: 다양한 LLM 모델과 호환되도록 설계되었습니다.
그러나 TechCrunch의 보도에 따르면, 오픈 컴퓨터 에이전트는 아직 초기 단계로 보이며 응답 시간이 느리고, 성능이 일관적이지 않으며, CAPTCHA 처리에 어려움을 겪는 등의 한계점도 있습니다.
실제 활용 가능성과 전망
허깅 페이스의 오픈 컴퓨터 에이전트는 완벽한 제품을 목표로 한 것이 아니라는 점에 주목할 필요가 있습니다. 오히려 이 프로젝트의 목표는 오픈소스 모델이 점점 더 역량이 향상되고 있으며, 클라우드에서 더 저렴하게 실행될 수 있다는 것을 보여주기 위한 것입니다.
허깅 페이스의 에이전트 팀 리더인 Aymeric Roucher는 X(구 트위터)를 통해 “비전 모델이 더 역량을 갖추게 되면서 복잡한 에이전트 워크플로우를 구동할 수 있게 됩니다. 이러한 모델들은 내장된 그라운딩을 지원하여 이미지 내의 요소를 좌표로 식별하고, 가상 머신에서 아이템을 클릭할 수 있습니다.”라고 설명했습니다.
AI 에이전트 기술은 지속적으로 발전하고 있으며, 기업들의 관심도 높아지고 있습니다. KPMG의 최근 조사에 따르면, 기업의 65%가 AI 에이전트를 실험하고 있으며, Markets and Markets는 AI 에이전트 시장이 2025년 78.4억 달러에서 2030년 526.2억 달러로 성장할 것으로 전망하고 있습니다.
에이전트 기술의 대중화와 미래
오픈 컴퓨터 에이전트의 출시는 AI 에이전트 기술이 더 이상 대기업만의 전유물이 아니라는 것을 보여줍니다. 이제 개인 개발자, 스타트업, 그리고 중소기업도 이러한 기술을 활용하여 혁신적인 솔루션을 만들어낼 수 있게 되었습니다.
이러한 오픈소스 모델의 발전은 AI 기술의 민주화를 가속화하고, 더 많은 사람들이 AI의 혜택을 누릴 수 있게 할 것입니다. 물론 아직 초기 단계이기 때문에 기술적 한계가 있지만, 오픈소스 커뮤니티의 협력을 통해 빠르게 개선될 것으로 기대됩니다.
오픈 컴퓨터 에이전트는 현재 허깅 페이스 스페이스(Hugging Face Space)를 통해 공개적으로 접근할 수 있지만, 사용량에 따라 가상 대기열에서 기다려야 할 수도 있습니다.
결론
허깅 페이스의 오픈 컴퓨터 에이전트 출시는 AI 에이전트 기술의 발전과 접근성 향상이라는 측면에서 중요한 의미를 갖습니다. 이는 OpenAI의 오퍼레이터와 같은 유료 서비스에 대한 무료 대안을 제공함으로써, 더 많은 사람들이 AI 에이전트 기술을 경험하고 활용할 수 있는 기회를 제공합니다.
이러한 오픈소스 중심의 접근 방식은 AI 기술의 발전을 가속화하고, 궁극적으로는 AI의 혜택이 더 넓은 범위의 사용자에게 도달할 수 있게 할 것입니다. 아직 초기 단계의 기술이지만, 오픈 컴퓨터 에이전트는 AI 에이전트 기술의 미래를 엿볼 수 있는 중요한 이정표가 될 것입니다.
Comments