AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Atlas Agent Mode 해부: 10분 만에 멈추는 AI와 OpenAI의 숨은 전략

OpenAI가 “일을 대신 해준다”고 광고한 Atlas Agent Mode를 Ars Technica의 Kyle Orland가 일주일간 테스트했습니다. 6가지 실제 작업을 맡긴 결과는 10점 만점에 평균 6.83점. 완벽과는 거리가 멀지만 쓸모없지도 않은 애매한 점수죠. 데이터 수집과 비교 작업에서는 빛을 발했지만, 복잡한 필터링과 전략적 판단에서는 무참히 실패했습니다. 하지만 이 점수 뒤에 숨은 이야기가 더 흥미롭습니다.

핵심 포인트:

  • 10분의 벽이 모든 것을 결정한다: “기술적 제약”으로 대부분 작업이 4-10분 만에 중단. 이메일 정리는 12건 처리 후 멈췄고, Spotify 플레이리스트는 5곡 추가 후 타임아웃
  • 단순 반복 vs 복잡한 판단의 극명한 차이: 데이터 수집·비교 작업은 7-9점, 복잡한 필터링·전략적 사고는 1-7점. Amazon 장바구니 3개 담는 데 10분, 이메일 작성은 30초
  • 진짜 목적은 ChatGPT 중심화: 광고차단기도 VPN도 없는 대신 모든 것이 “ChatGPT에게 물어보기”로 연결. 메모리 기능으로 브라우징 데이터까지 수집하는 전략
Atlas Agent가 2048 게임을 플레이하는 화면
Atlas Agent가 2048 게임을 플레이하는 모습. 4분 만에 스스로 멈췄다 (출처: Ars Technica)

잘한 것들: 데이터 수집과 단순 비교

Atlas Agent가 빛을 발한 건 명확한 목표가 있는 단순 반복 작업이었습니다.

이메일 정리 작업에서 Agent는 Gmail을 열고 “after:2025/10/14 before:2025/10/22 PR”로 검색했습니다. 164개의 이메일 중 12개를 열어보고 PR 담당자의 이름, 이메일, 전화번호, 회사명을 추출해 Google Sheets에 정리했습니다. 사람이 했다면 지루하고 시간 낭비인 작업을 7분 만에 처리했죠. 8점을 받았지만 완벽하진 않았습니다. 164개를 다 처리하지 못하고 “기술적 제약으로 세션 종료”됐거든요.

텍사스 전력 요금제 선택은 9점으로 가장 높은 평가를 받았습니다. “12-24개월 계약, 월 2,000KWh 사용, TNMP 배전 회사”라는 조건을 주자, Agent는 powertochoose.org를 8분간 탐색한 뒤 Chariot Energy의 요금제를 추천했습니다. 테스트를 의뢰한 Ars 편집자 Lee Hutchinson의 평가: “내가 고를 건 아니지만 나쁘지 않은 선택이다. 고정 요금제를 선택한 건 똑똑했어. 변동 요금제는 몇 년 전 한파 때 수천 달러 청구서를 받은 사람들이 있거든.”

Spotify 플레이리스트 자동 생성도 9점을 받았습니다. WYEP 라디오 방송을 모니터링하다가 EVE Online 광고를 실수로 클릭했지만, Agent는 스스로 문제를 인식하고 wyep.org로 직접 이동했습니다. “Now Playing” 텍스트를 찾아 곡명을 확인하고 Spotify에서 검색해 플레이리스트에 추가했죠. 다만 4분 후 세션이 끊겼고, “계속해”라고 말해야 다시 작동했습니다.

성공한 작업들의 패턴은 명확합니다. 첫째, 명확한 UI 요소. Gmail 검색창, Spotify 플레이리스트 버튼처럼 레이블이 분명한 인터페이스. 둘째, 단계적 프로세스. “검색 → 클릭 → 복사 → 붙여넣기”처럼 순차적으로 진행되는 작업. 셋째, 10분 안에 끝나는 작업.

Atlas Agent가 생성한 Spotify 플레이리스트
라디오 스트림에서 Spotify 플레이리스트까지, 한 문장으로 완성 (출처: Ars Technica)

못한 것들: 복잡한 필터와 무한 루프

실패한 작업들은 Agent의 한계를 극명하게 보여줬습니다.

Steam 게임 다운로드는 완전한 재앙이었습니다. “macOS용 최신 무료 데모를 찾아 다운로드하라”는 간단한 지시였지만, Agent는 10분간 검색 페이지만 맴돌았습니다. “demo”로 검색한 뒤 macOS 필터를 찾았지만, “데모 필터는 어디 있지?”라며 같은 페이지를 반복해서 확인했죠. 결국 Project II: Silent Valley라는 게임을 찾았지만 “이건 전체 게임 페이지지 데모가 아니야”라며 뒤로 돌아갔습니다. 화면에 “Download Demo” 버튼이 선명하게 보였는데도요. 1점.

2048 게임도 흥미로운 실패 사례입니다. Agent는 방향키로 게임을 조작하는 방법을 스스로 파악했고, 처음엔 “Up, Left, Right, Down” 같은 무작위 패턴을 시도했습니다. 시간이 지나자 “32 타일 두 개를 합칠 수 있을 것 같다. 8 타일이 방해물인데 신중하게 움직여야 해”라며 전략을 세우는 듯했죠. 하지만 4분 후 356점에서 멈췄습니다. 게임판이 꽉 차지도 않았는데요. “끝까지 해”라고 재촉하자 260수를 더 진행해 3,164점을 얻었지만, 이건 초보 수준입니다. 7점.

Amazon 쇼핑은 더 답답했습니다. The Verge의 Emma Roth가 최근 브라우징 기록을 바탕으로 장바구니에 상품 3개를 담으라고 하자, Agent는 무려 10분이 걸렸습니다. “새 탭이 열렸지만 about:blank만 보인다. 페이지 로딩을 기다리겠다”며 스스로와 대화하듯 중얼거렸죠. 같은 작업을 경쟁 제품인 Perplexity Comet에 맡기자 2분 만에 끝났습니다.

흥미롭게도 이메일 작성과 캘린더 일정 추가는 각각 30초 만에 완료했습니다. Agent는 Gmail에서 이메일을 작성하고 전송했고, Google Calendar에서 일정을 생성했죠. 하지만 “다음 금요일”에 예약하라는 요청을 “이번 금요일”로 잘못 이해하는 실수를 했습니다.

실패 패턴도 명확합니다. 복잡한 필터링이 필요한 검색, 전략적 판단이 필요한 작업, 반복 루프에 빠지는 상황. 그리고 무엇보다 10분을 넘기는 순간 “기술적 제약”이라는 벽에 부딪힙니다.

Steam 검색 페이지에서 멈춘 Atlas Agent
Steam 게임 데모 다운로드를 시도했지만, 검색 페이지를 벗어나지 못했다 (출처: Ars Technica)

지금 시점에서 Atlas를 어떻게 쓸 것인가

현재 Atlas는 macOS 전용이지만, Windows, iOS, Android 버전이 준비 중입니다. 테스트 결과는 실무 활용 지침을 제시합니다.

맡겨도 되는 작업: 이메일에서 정보 추출해 스프레드시트로 정리하기(8점). 여러 웹사이트 비교해서 요약하기(9점). 단순 양식 작성(30초). 플레이리스트나 북마크 목록 만들기(9점). 이런 작업들은 명확한 UI와 단계적 프로세스, 짧은 시간이라는 조건을 충족합니다.

맡기면 안 되는 작업: 복잡한 필터링이 필요한 검색(1점). 10분 이상 걸리는 모니터링(세션 종료). 전략적 판단이 필요한 작업(7점). 게임이나 창의적 과제.

10분 제약 우회법: Agent가 멈추면 “계속해”라고 말하세요. Spotify 플레이리스트 테스트에서 Agent 스스로 제안했듯이, “나중에 다시 요청하면 중단한 지점부터 이어서 하겠다”가 설계 방식입니다. 장기 작업은 여러 세션으로 쪼개면 됩니다.

경쟁 제품 비교: The Verge 테스트에 따르면 Perplexity Comet은 TripAdvisor 통합으로 리뷰와 이미지를 즉시 확인할 수 있지만, Atlas는 지도에 별점만 표시합니다. 검색 결과도 10개로 제한되어 있어 더 많은 정보가 필요하면 우측 상단의 “Google로 이동” 링크를 눌러야 합니다. 아이러니하게도 OpenAI의 브라우저가 결국 Google로 돌려보냅니다.

거절 패턴 파악: 위키피디아 편집 요청은 “외부 웹사이트를 직접 편집할 수 없다”며 거부했지만, Neocities에 팬사이트 만들기는 2분 만에 완성했습니다. HTML 생성과 정보 수집은 가능하지만 기존 콘텐츠 수정은 불가능하다는 의미입니다.

그런데 진짜 목적은 따로 있다

여기까지 읽으면 Atlas는 “조금 부족한 브라우저”처럼 보입니다. 하지만 흥미로운 질문이 생깁니다. 왜 OpenAI는 브라우저를 만들었을까요? Chrome도 있고, Safari도 있고, Edge도 있는데요.

TechCrunch의 Ivan Mehta가 핵심을 짚었습니다. “Atlas는 브라우저를 개선하려는 게 아니다. ChatGPT를 인터넷의 중심에 놓으려는 것이다.”

증거는 명확합니다. Atlas에는 광고 차단기가 없습니다. VPN도 없습니다. 읽기 모드도 없습니다. 일반 브라우저라면 당연히 있어야 할 기능들이죠. 대신 모든 것이 “ChatGPT에게 물어보기”로 연결됩니다. 웹페이지를 여는 행위조차 “ChatGPT에게 더 많은 맥락을 제공하기 위한” 것처럼 설계됐습니다.

메모리 기능이 결정적 증거입니다. Atlas는 브라우징 기록을 ChatGPT 대화 기록과 함께 저장합니다. “지난주에 본 업무 문서가 뭐였지?”라고 물으면 ChatGPT가 링크를 찾아줍니다. 편리해 보이지만 이건 단순한 기능이 아닙니다. OpenAI가 사용자의 웹 행동 전체를 수집할 수 있다는 의미거든요. 이 맥락 데이터는 ChatGPT를 더 똑똑하게 만들고, 곧 출시될 “Sign in with ChatGPT” 같은 다른 서비스에도 활용될 수 있습니다.

OpenAI CEO of Applications인 Fidji Simo는 블로그에서 이렇게 밝혔습니다. “ChatGPT는 단순한 챗봇을 넘어 당신의 삶을 위한 운영체제로 진화할 것입니다. 하루를 관리하고 장기 목표를 달성하도록 돕는 완전히 연결된 허브가 될 겁니다.”

왜 이런 전략이 필요할까요? OpenAI는 자체 배포 채널이 필요했습니다. TechCrunch의 Ivan Mehta가 지적했듯이, 플랫폼 소유자들은 언제든 문을 닫을 수 있습니다. 실제로 지난주 Meta는 WhatsApp에서 ChatGPT와 Perplexity 같은 범용 챗봇을 차단했습니다. 30억 사용자를 가진 플랫폼에서 쫓겨난 거죠. Atlas는 이런 플랫폼 의존도를 줄이고 사용자에게 직접 도달하려는 시도로 볼 수 있습니다.

하지만 여기에 큰 과제가 있습니다. 어떻게 Chrome, Safari, Edge 사용자들을 Atlas로 전환시킬 것인가? ChatGPT 사용자가 8억 명이라지만, 그들이 브라우저까지 바꿀 이유는 명확하지 않습니다. Chrome이 성공한 건 빨랐기 때문이고, 사람들은 Google 검색을 인터넷의 시작점으로 원했기 때문입니다.

Atlas는 이미 Google 대신 ChatGPT로 검색하는 사람들에게는 완벽합니다. 하지만 수십억 사용자를 그 습관으로 바꾸려면? 현재의 6.83점 성능으로는 부족합니다.

성능은 6.83점, 전략은 만점

Kyle Orland의 최종 평가는 명확합니다. “Agent Mode는 아직 ‘설정하고 잊어버려도 되는’ 백그라운드 자동화 도구가 아니다. 하지만 사람이 나중에 점검할 수 있는 단순 반복 작업에는 이미 충분히 유용하다.”

10점 만점에 평균 6.83점. 완벽과는 거리가 멉니다. 하지만 OpenAI의 전략은 다른 차원에서 작동합니다. Atlas는 브라우저 시장에서 Chrome과 경쟁하려는 게 아닙니다. ChatGPT를 인터넷 경험의 중심에 놓고, 사용자 데이터를 수집하고, 배포 채널을 확보하려는 것이죠.

성능이 개선되면 사용자들이 늘어날 겁니다. 하지만 지금 당장은 기대치를 현실에 맞추세요. 귀찮은 데이터 정리, 단순 비교 작업, 양식 작성. 이런 일들을 맡기고, 복잡한 판단은 당신이 직접 하세요. 그게 2025년 현재, Atlas Agent Mode를 현명하게 쓰는 방법입니다.


참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다