아마존이 3월 31일, 웹 브라우저를 제어할 수 있는 새로운 AI 에이전트 ‘노바 액트(Nova Act)’를 공개했습니다. 이 모델은 웹 브라우저에서 독립적으로 작업을 수행할 수 있는 능력을 갖추고 있으며, 개발자들이 이를 활용해 다양한 웹 자동화 애플리케이션을 만들 수 있도록 SDK(소프트웨어 개발 키트)도 함께 제공됩니다.
AI 에이전트의 진화: 단순 챗봇에서 행동하는 AI로
최근까지 AI 모델들은 주로 텍스트 응답이나 이미지 생성 같은 단일 작업에 초점을 맞추었습니다. 하지만 업계의 방향성은 점차 ‘에이전트(Agent)’ 모델로 진화하고 있습니다. AI 에이전트란 사용자를 대신해 실제 디지털 환경에서 작업을 수행할 수 있는 AI를 의미합니다.

아마존 노바 웹사이트 화면 (출처: Amazon)
노바 액트는 OpenAI의 ‘오퍼레이터(Operator)’와 Anthropic의 ‘컴퓨터 유즈(Computer Use)’ 같은 경쟁자들에 맞서는 아마존의 AI 에이전트 기술입니다. 이들 모두 웹 브라우저를 제어하고 사용자를 대신해 다양한 작업을 수행할 수 있도록 설계되었습니다.
아마존 인공일반지능(AGI) 연구소의 데이비드 루안(David Luan)은 “AGI란 컴퓨터에서 인간이 할 수 있는 모든 일을 도울 수 있는 AI 시스템”이라고 정의하면서, 웹 브라우저 자동화가 궁극적인 초지능형 AI 시스템을 향한 중요한 단계라고 설명했습니다.
노바 액트의 핵심 기능과 기술적 우위
노바 액트의 가장 큰 특징은 웹 브라우저에서 양식 작성, 버튼 클릭, 날짜 선택 등 다양한 작업을 자동화할 수 있다는 점입니다. 아마존 측은 이 기술이 외식 주문이나 저녁 예약 같은 간단한 작업부터 복잡한 웹 탐색 작업까지 처리할 수 있다고 밝혔습니다.
노바 액트가 기차역까지 자전거 거리로 아파트를 검색하는 모습 (출처: Amazon)
아마존은 자체 내부 테스트에서 노바 액트가 경쟁 제품들을 능가하는 성능을 보여주었다고 주장합니다. 특히 ‘ScreenSpot Web Text’ 테스트에서 노바 액트는 94%의 정확도를 기록했는데, 이는 OpenAI의 CUA(88%)와 Anthropic의 Claude 3.7 Sonnet(90%)보다 높은 수치입니다.
노바 액트 SDK의 주요 특징은 복잡한 워크플로우를 작은 단위의 명령(검색, 결제, 화면 내용 질문 등)으로 나눠 신뢰성을 높인 점입니다. 또한 개발자들이 특정 시점에 인간의 개입이 필요한지 여부를 정확히 설정할 수 있도록 설계되었습니다.
개발자 친화적인 SDK와 파이썬 기반 API
노바 액트 SDK는 파이썬(Python) 기반으로 설계되어 개발자들이 쉽게 접근할 수 있습니다. 개발자들은 다음과 같이 간단하게 노바 액트를 시작할 수 있습니다:
from nova_act import NovaAct
with NovaAct(starting_page="https://www.amazon.com") as n:
n.act("search for a coffee maker")
n.act("select the first result")
n.act("scroll down or up until you see 'add to cart' and then click 'add to cart'")
이 코드는 크롬 브라우저를 열고, 아마존에서 커피메이커를 검색하고, 첫 번째 결과를 선택한 다음, ‘장바구니에 추가’ 버튼을 클릭하는 작업을 자동으로 수행합니다.
SDK는 다음과 같은 다양한 기능을 지원합니다:
- 병렬 세션 실행 가능 (멀티스레딩)
- 쿠키와 브라우저 상태 관리
- 파일 다운로드 지원
- 화면 정보 추출 및 구조화된 데이터 변환
업계 영향과 아마존의 전략
노바 액트는 아마존의 최초 범용 AI 에이전트이지만, 이미 혼잡한 시장에 진입하는 셈입니다. 그러나 아마존에게는 매우 중요한 기술로, 특히 ‘알렉사 플러스(Alexa+)’ 업그레이드의 핵심 기능을 지원할 예정입니다.
아마존이 다른 회사들보다 늦게 에이전트 기술을 개발했을지 모르지만, 알렉사라는 널리 보급된 플랫폼을 통해 가장 넓은 사용자층에 접근할 수 있다는 강점이 있습니다. 노바 액트는 아마존의 인공일반지능(AGI) 연구소에서 나온 첫 번째 공개 제품으로, 전 OpenAI 연구원인 데이비드 루안(David Luan)과 피터 아벨(Pieter Abbeel)이 이끄는 팀이 개발했습니다.
현재 한계와 향후 전망
현재 출시된 노바 액트는 ‘연구 미리보기(research preview)’ 버전으로, 아직 완전히 정제되지 않은 상태입니다. 개발자들은 nova.amazon.com에서 이 도구에 접근할 수 있으며, 아마존은 이 웹사이트를 통해 다양한 노바 기반 모델들을 선보이고 있습니다.
초기 AI 에이전트들의 주요 문제점은 다양한 영역에서의 신뢰성이었습니다. TechCrunch의 테스트에 따르면, OpenAI, Google, Anthropic의 시스템들은 속도가 느리고, 오랫동안 독립적으로 작동하기 어려우며, 인간이라면 하지 않을 실수를 자주 한다고 합니다. 아마존의 노바 액트가 이러한 문제를 어떻게 해결했는지는 향후 사용자 테스트와 개발자 피드백을 통해 확인될 예정입니다.
결론: 웹 브라우저 자동화의 새로운 시대
노바 액트의 출시는 AI가 단순히 정보를 제공하는 것을 넘어 사용자를 대신해 실제 작업을 수행하는 에이전트 시대가 본격적으로 열리고 있음을 시사합니다. 아마존은 이 기술이 단순한 작업 자동화뿐만 아니라 결혼식 계획이나 복잡한 IT 업무 처리 같은 광범위한 작업까지 수행할 수 있기를 기대하고 있습니다.
이제 개발자들은 노바 액트 SDK를 활용해 더 안정적이고 유용한 에이전트 애플리케이션을 만들 수 있게 되었습니다. 아직 초기 단계이지만, 웹 브라우저 자동화는 AI의 발전 방향을 보여주는 중요한 지표가 될 것입니다.
Comments