AI Sparkup

복잡한 AI 세상을 읽는 힘

AI 시대의 새로운 필수 습관, 스크린샷의 재발견

AI 기술이 우리 일상에 깊숙이 침투하고 있는 지금, 수많은 첨단 기능들이 등장하면서 미래형 컴퓨팅 경험이 어떻게 변화할지 기대와 호기심이 높아지고 있습니다. 하지만 흥미롭게도, 이 모든 AI 혁명 속에서 우리가 이미 익숙하게 사용하고 있는 가장 단순한 기능 중 하나가 새롭게 조명받고 있습니다. 바로 ‘스크린샷’입니다.

스크린샷, AI 시대의 중요한 가치 신호

여러 스크린샷 이미지가 AI로 분석되는 개념 이미지 출처: Android Central

스크린샷은 디지털 정보를 캡처하는 가장 보편적인 방법입니다. 몇 번의 클릭만으로 거의 모든 것을 캡처하고, 이를 거의 모든 기기, 앱 또는 사람과 공유할 수 있습니다. 디지털 저장 앱 Fabric의 창립자 Johnny Bree는 “스크린샷은 휴대 가능한 데이터 형식입니다. 어떤 소프트웨어 간에도 이동할 수 있는 이만큼 휴대성이 좋은 것은 없습니다”라고 말합니다.

스크린샷에는 출처, 내용, 심지어 화면 모서리의 시간과 같은 많은 정보가 포함되어 있습니다. 무엇보다 중요한 것은 스크린샷이 ‘나는 이것을 중요하게 생각한다’는 핵심적이고 복잡한 신호를 전달한다는 점입니다. 세상을 관찰하고 우리 삶의 모든 것을 이해하려는 수많은 AI 도구가 있지만, 이들은 대부분 무엇이 중요한지 판단하는 데 어려움을 겪습니다. AI는 사물이 무엇인지 파악하는 데는 능숙하지만, 그것이 중요한지 아닌지 판단하는 데는 취약합니다. 바로 이 지점에서 스크린샷은 가치를 부여하고 AI 시스템에게 주목해야 할 대상을 알려주는 역할을 합니다.

스크린샷의 진화: AI가 분석하는 방식

기존에 스크린샷은 상당히 단순한 도구였습니다. 캡처한 뒤 카메라 롤에 저장되고, 대부분 영원히 잊혀지는 운명이었죠. 좋은 경우에도 이미지 내의 텍스트를 검색하는 정도였습니다. 하지만 AI가 결합되면서 스크린샷을 더 유용하게 만드는 첫 번째 단계는 실제로 그 안에 무엇이 있는지 파악하는 것입니다.

기존 OCR(광학 문자 인식) 기술은 페이지의 텍스트를 감지하는 데 오랫동안 좋은 성능을 보여왔습니다. 하지만 최신 AI 모델은 여기서 한 단계 더 나아갑니다. Google의 Shenaz Zack은 Pixel Screenshots 앱 개발팀의 일원으로서 “우리는 OCR 모델을 사용한 후, 엔티티 감지 모델을 사용하고, 그다음 Gemini가 화면의 실제 컨텍스트를 이해하도록 합니다”라고 설명합니다.

스크린샷에는 텍스트 이상의 정보가 있습니다. 적절한 AI 모델은 WhatsApp의 특정 녹색 색상만으로도 그것이 WhatsApp에서 온 것임을 알 수 있습니다. 웹사이트를 헤더 로고로 식별하거나 Spotify 노래 이름, Yelp 리뷰, Amazon 리스팅 등을 저장할 때 이를 인식할 수 있습니다. 이러한 정보를 바탕으로, 스크린샷 앱은 이러한 이미지를 자동으로 정리하기 시작할 수 있습니다. 그리고 이것은 시작에 불과합니다.

실제 사례: Google Pixel과 Nothing의 접근법

Google Pixel Screenshots 앱

Pixel Screenshots 앱 인터페이스 출처: Android Central

Google Pixel Screenshots 앱은 2024년 Pixel 9 시리즈와 함께 출시된 AI 기반 기능으로, 스크린샷을 단순히 저장하는 것 이상의 기능을 제공합니다. 이 앱은 스크린샷 내용을 분석하고 카테고리별로 자동 분류합니다. 예를 들어, 콘서트 정보를 캡처했다면 다음에 Spotify를 열 때 해당 아티스트의 음악을 듣도록 권유할 수 있습니다. ID 카드나 탑승권을 스크린샷으로 저장하면 이를 Wallet 앱에 추가하도록 제안할 수도 있습니다.

2025년 3월 업데이트에서는 자동 제안 기능이 추가되어 사용자가 관심을 가질 만한 스크린샷을 AI가 자동으로 추천해 줍니다. 이는 단순한 스크린샷 관리자를 넘어, 다른 앱과 연계하여 사용자 경험을 향상시키는 ‘입력 시스템’으로 발전하고 있습니다.

Nothing의 Essential Space 앱

Nothing의 CEO인 Carl Pei는 “하드웨어와 AI를 유용하고 사람들의 얼굴에 미소를 가져다주는 방식으로 통합하는 것이 중요하다”고 말했습니다. 이러한 비전을 바탕으로 Nothing Phone 3a 시리즈에 탑재된 Essential Space 앱은 스크린샷 기반 AI의 새로운 가능성을 보여줍니다.

Essential Space는 하드웨어 버튼인 ‘Essential Key’와 연동되어 작동합니다. 이 버튼을 클릭하면 현재 보고 있는 화면을 스크린샷으로 저장하고, 즉시 텍스트 노트나 음성 메모를 추가할 수 있습니다. 이는 단순히 화면을 캡처하는 것을 넘어, 왜 그것을 저장했는지 기록하고 AI에게 중요성을 알려주는 방식입니다.

Essential Space의 가장 큰 장점은 스크린샷이나 메모를 저장한 후에 자동으로 수행할 수 있는 작업입니다. 할인 쿠폰을 Essential Space에 추가하면 만료되기 하루 전에 알림을 받을 수 있습니다. 또한 마지막 달리기 운동 결과의 스크린샷을 저장하면 다음 운동 일정을 상기시켜 줄 수도 있습니다.

스크린샷 기반 어젠틱 AI의 가능성

어젠틱 AI(Agentic AI)는 사용자를 대신하여 작업을 수행하는 AI 기술을 말합니다. 기술 업계의 많은 기업들이 AI를 활용하여 사용자를 대신해 작업을 수행하는 방법을 개발하고 있습니다. 스크린샷 기반 접근법의 특별한 점은 사용자가 긴 프롬프트를 작성하거나 어시스턴트와 대화할 필요 없이, 단순히 스크린샷을 찍으면 시스템이 작업을 시작한다는 것입니다.

Nothing의 스마트폰 마케팅 책임자인 Mattia Deserti는 “오늘날 지식 베이스는 갤러리에 국한되어 있고 아무 일도 일어나지 않습니다”라고 말합니다. 그는 콘서트 날짜의 스크린샷을 찍으면 티켓이 판매될 때 자동으로 구매를 권유하는 수준까지 발전할 것을 기대하고 있습니다.

인디 개발자 Mike Choi는 자신의 스크린샷을 활용하기 위해 ‘Camp’라는 앱을 개발했습니다. 그는 모든 스크린샷을 중요 정보가 사진과 함께 저장되는 ‘카드’로 변환하는 작업을 시작했습니다. “스크린샷이 있고, 하단에 버튼이 있으면 카드가 뒤집힙니다. 장소였다면 지도를, 노래였다면 미리 듣기를 보여줍니다. 아이디어는 다양한 유형의 스크린샷에 대해 AI가 해당 카테고리에 맞는 완벽한 UI를 즉석에서 생성할 수 있는지 확인하는 것이었습니다.”

현재의 한계와 과제

스크린샷을 이해하는 것이 항상 간단하지는 않습니다. 어떤 스크린샷은 ID 카드처럼 영원히 보관하고 싶은 것이지만, 콘서트 포스터나 주차 패스와 같은 다른 것들은 매우 제한된 유효 기간을 가집니다. 또한 앱이 직장에서 매일 사용하는 주차 패스와 공항에서 한 번 사용하고 다시는 필요 없는 주차 패스를 어떻게 구분할 수 있을까요?

많은 스크린샷 앱은 메모를 추가하거나 직접 정리하도록 권유하는 방법을 모색하고 있습니다. 하지만 스크린샷을 매끄럽고 쉽게 만드는 장점을 해치지 않으면서 이를 수행하는 것은 어려운 과제입니다.

이 문제를 해결하기 위한 한 가지 방법은 기기에서 추가 컨텍스트를 수집하는 것입니다. 여기서 Google과 Nothing과 같은 기업들이 장점을 가집니다. 그들은 기기를 제조하기 때문에 스크린샷을 찍을 때 일어나는 모든 일을 볼 수 있습니다. 웹 브라우저에서 스크린샷을 찍으면 보고 있던 링크도 저장할 수 있습니다. 또한 물리적 위치나 시간, 날씨도 확인할 수 있습니다. 때로는 이 모든 것이 유용하지만, 때로는 의미 없는 정보일 수 있습니다. 더 많은 데이터를 수집할수록 이러한 앱은 스크린샷이 해결하는 데 도움을 준 것과 같은 노이즈 문제에 직면할 위험이 있습니다.

결론: 한 번에 하나의 스크린샷

우리는 모두 끊임없이 스크린샷을 찍고, 다양한 종류의 유용한 정보에 표시를 하는 방법으로 이를 활용하는 데 익숙합니다. 이러한 관련성 있고 개인화된 데이터에 접근하는 것은 훌륭한 AI 어시스턴트를 구축하는 데 있어 가장 어려운 부분입니다.

미래의 컴퓨팅은 분명히 카메라, 마이크, 그리고 모든 종류의 센서를 포함한 멀티모달 방식이 될 것입니다. 하지만 AI를 활용하는 첫 번째 최선의 방법은 한 번에 하나의 스크린샷을 통해서일 수 있습니다. 스크린샷을 활용한 AI 기능은 복잡한 명령어나 설정 없이도 사용자의 의도를 파악하고 자동으로 유용한 작업을 수행할 수 있는 직관적인 인터페이스를 제공합니다. 이는 기술을 더 접근하기 쉽고 일상생활에 통합하기 쉽게 만듭니다.

AI 시대에는 새로운 첨단 기술만큼이나 우리가 이미 사용하고 있는 간단한 도구들이 혁신의 중심에 있을 수 있다는 점을 기억해야 합니다. 스크린샷이라는 단순한 행동이 AI와 결합하여 어떻게 우리의 디지털 경험을 변화시킬지, 앞으로의 발전이 기대됩니다.

참고자료:

Comments