브라우저 주소창에 “Who Framed Roger Rabbit”을 입력하면 무슨 일이 벌어질까요? 대부분의 브라우저는 영화 정보를 검색해주겠지만, 일부 AI 브라우저는 이걸 질문으로 착각해서 “로저 래빗을 누가 함정에 빠뜨렸는지”에 대한 채팅 응답을 내놓습니다. 영화 제목을 검색하려는 사용자에게는 전혀 원하지 않는 결과죠.

소프트웨어 개발자 Allen Pike가 AI 브라우저들이 사용자 입력을 해석하는 방식과 그 한계를 분석한 글을 발표했습니다. 핵심은 “질문인가 아닌가”를 판별하는 것만으로는 부족하고, “사용자가 질문을 하려는가, 아니면 질문처럼 생긴 것을 검색하려는가”를 구분해야 하는데 이것이 생각보다 훨씬 어렵다는 점입니다.
출처: A Box of Many Inputs – Allen Pike
문제의 본질: 질문 vs 질문 같은 검색어
한때 브라우저 주소창은 단순했습니다. http://www.wikipedia.org를 정확히 입력해야 했죠. 지금은 wiikipo라고 엉터리로 쳐도 제대로 찾아갑니다. 하지만 AI 시대에 주소창은 훨씬 더 많은 역할을 하려고 합니다. 오타 수정, 동의어 검색, 자동완성, 답변 생성, 명령 실행까지. 사용자는 그저 의도를 분명히 하고 엔터만 누르면 되는 거죠.
여기서 딜레마가 생깁니다. Atlassian이 인수한 Dia 브라우저는 로컬에서 실행되는 작은 분류 모델(DistilBERT 기반, 약 160MB)로 “질문 느낌”을 감지합니다. 예를 들어 주소창에 “애틀라시안이 브라우저 컴퍼니를 얼마에 인수했나요”라고 입력하면 구글로 보내지 않고 내장 채팅으로 바로 “6억 1천만 달러”라고 답합니다. 밀리초 단위로 작동하고 프라이버시도 보호되는 똑똑한 방식이죠.
하지만 문제가 있습니다. 이 분류기는 다음과 같은 실수를 합니다:
- “roger rabbit movie” → 검색
- “who framed roger rabbit wikipedia” → 채팅 (실제로는 검색해야 함)
- “a can of beans recipe” → 검색
- “can of beans recipe” → 채팅 (can을 조동사로 착각)
- “guess who lead singer” → 채팅 (밴드명 Guess Who를 검색해야 함)
설령 “이것이 질문인가” 판별을 100% 정확하게 한다 해도, 정작 필요한 것은 “사용자가 질문을 하려는가, 아니면 질문 같은 것을 검색하려는가”를 구분하는 겁니다. 이건 훨씬 어려운 문제예요. 로컬에서 빠르게 돌아가는 작은 모델로는 세상 지식(영화 제목, 밴드명 등)을 충분히 담기 어렵습니다.
각 브라우저의 서로 다른 접근법
Pike는 주요 AI 브라우저 4개를 비교했는데, 각각 전혀 다른 전략을 씁니다:
Dia: 로컬 분류기로 “질문 느낌”을 감지하지만, 위에서 본 것처럼 한계가 명확합니다.
ChatGPT Atlas: 아예 단순하게 갑니다. 10단어 미만이면 검색, 이상이면 채팅. 짧은 쿼리를 명시적으로 채팅에 보내려면 ⌘+Return을 누르면 됩니다. 복잡한 분류기 없이 간단한 규칙으로 문제를 회피한 셈이죠.
Perplexity Comet & Google Chrome: 모든 쿼리를 각자의 검색 엔진으로 보내고, 서버에서 더 큰 모델로 판단합니다. 구글은 웹 결과 쪽으로, Perplexity는 AI 생성 답변 쪽으로 치우쳐 있지만 둘 다 상황에 따라 유연하게 대응합니다.
흥미롭게도 4개 브라우저 중 Dia만 “who framed roger rabbit”을 질문으로 해석합니다. 나머지는 모두 검색 결과를 보여주죠.
옴니박스의 미래
Dia는 이제 두 갈래 길에 서 있습니다. Perplexity나 구글처럼 자체 답변 엔진을 만들어 모든 쿼리를 거기로 보낼지, 아니면 Atlas처럼 로컬 분류기를 포기하고 짧은 쿼리는 전부 검색으로 보낼지요. Atlassian CEO Mike Cannon-Brookes의 최근 인터뷰를 보면 Dia가 전문 생산성 브라우저로 자리매김할 수 있을 것 같긴 한데, Arc 브라우저는 세 번이나 언급하면서 Dia는 한 번도 안 언급한 걸 보면 미래 방향이 아직 불투명합니다.
하지만 분명한 건, 이 문제가 브라우저만의 것이 아니라는 사실입니다. 시간이 지나면서 점점 더 많은 텍스트 입력창이 “옴니박스”처럼 작동하려 할 겁니다. 범용 커맨드 바의 부상도 같은 맥락이죠. 사용자는 그저 하고 싶은 걸 타이핑하고, 소프트웨어는 그걸 알아서 해내야 합니다. 빠르게, 놀라움 없이.
쉽지 않겠지만, 그게 바로 우리가 가야 할 방향입니다.
참고자료: An Interview with Atlassian CEO Mike Cannon-Brookes About Atlassian and AI – Stratechery

답글 남기기