Gemini 3.5 Flash가 화면을 직접 조작한다, 에이전트의 새 능력과 프롬프트 인젝션이라는 대가

2026-06-29

﹒

3 minutes

지금까지 AI 에이전트가 웹 화면을 클릭하고 입력하게 하려면 그 일만 전담하는 별도 모델을 따로 불러야 했습니다. 이제 구글은 그 기능을 일반 모델 안으로 집어넣었습니다. Gemini 3.5 Flash가 검색이나 함수 호출처럼, 화면을 보고 조작하는 능력을 기본 도구 하나로 갖게 된 것입니다.

사진 출처: Google

구글이 Gemini 3.5 Flash에 ‘컴퓨터 사용(computer use)’ 기능을 내장 도구로 추가했다고 공식 블로그를 통해 발표했습니다. 에이전트가 브라우저, 모바일, 데스크톱 화면을 직접 보고 클릭·입력·스크롤할 수 있게 됐고, 동시에 이 능력이 만들어내는 새로운 보안 위협에 대응하는 안전장치도 함께 내놓았습니다.

출처: Introducing computer use in Gemini 3.5 Flash – Google

별도 모델에서 도구 하나로

이전까지 이 기능은 2025년 10월에 나온 독립형 ‘Gemini computer use’ 모델에서만 쓸 수 있었습니다. 브라우저 기반 작업에 특화된 별도 모델이었죠. 그래서 화면을 조작하는 에이전트를 만들려면 개발자는 전용 모델을 따로 호출해야 했습니다.

이번 변화의 핵심은 그 능력이 Flash 안으로 들어왔다는 점입니다. 이제 화면 조작은 코드 실행, 검색, 함수 호출과 나란히 놓인 여러 도구 중 하나가 됐습니다. 두 개의 모델을 오가던 작업이 하나로 합쳐진 셈입니다. 화면을 다루는 일과 그 화면에서 얻은 정보로 추론하고 코드를 실행하는 일을 한 모델 안에서 이어갈 수 있다는 뜻이기도 합니다.

스크린샷을 보고 다음 동작을 정한다

화면을 조작한다는 게 구체적으로 어떻게 작동할까요. 기존 독립형 모델은 스크린샷과 동작을 주고받는 반복 구조로 움직였습니다. 흐름은 대략 이렇습니다.

현재 화면을 캡처해 모델에 전달
모델이 “이 버튼을 클릭하라” 같은 구조화된 명령을 반환
그 명령을 실제 환경에서 실행
바뀐 화면을 다시 캡처해 모델에 전달, 1번으로 복귀

사람이 화면을 눈으로 보고 마우스를 움직인 뒤 결과를 다시 확인하는 과정과 닮았습니다. 모델은 픽셀로 된 화면을 ‘보고’, 다음에 무엇을 누를지 판단합니다. 이 방식 덕분에 정해진 API가 없는 화면, 즉 사람만 쓸 수 있도록 만들어진 인터페이스도 다룰 수 있습니다. 참고로 독립형 모델은 화면 조작 능력을 재는 Online-Mind2Web 벤치마크에서 약 70% 정확도를 기록했습니다. 다만 구글은 이번 내장 도구 버전의 갱신된 점수는 아직 공개하지 않았습니다.

진짜 쟁점은 프롬프트 인젝션

에이전트가 화면을 직접 조작하기 시작하면, 단순 챗봇에는 없던 위험이 생깁니다. 바로 프롬프트 인젝션입니다. 웹페이지나 문서 안에 악의적인 지시문을 숨겨두면, 그 내용을 읽은 에이전트가 원래 시키지 않은 행동을 하도록 속아 넘어가는 공격입니다. 화면 위 콘텐츠를 그대로 받아들여 행동으로 옮기는 에이전트일수록 이 공격에 취약합니다. 연구자들은 AI 에이전트가 작업 중 마주치는 콘텐츠를 통해 조종될 수 있다는 점을 여러 차례 보여줬습니다.

구글은 이 위협에 대응해 프롬프트 인젝션을 겨냥한 적대적 훈련을 적용했다고 밝혔습니다. 그리고 두 가지 선택적 안전장치를 함께 내놨습니다. 하나는 양식 제출이나 데이터 삭제처럼 민감하거나 되돌릴 수 없는 행동 전에 사용자의 명시적 확인을 요구하는 기능, 다른 하나는 간접적인 프롬프트 인젝션이 감지되면 작업을 자동으로 멈추는 기능입니다.

여기서 눈여겨볼 대목이 있습니다. 두 안전장치는 기본값이 아니라 opt-in, 즉 선택 사항입니다. 구글은 어떤 단일 안전장치도 그 자체로 충분하지 않다고 문서에서 인정하며, 여러 보호 장치를 겹겹이 쌓는 ‘심층 방어’ 방식을 권합니다. 능력을 일반 공개할 만큼 성숙했다고 보면서도, 안전 통제는 개발자가 직접 켜고 조합해야 하는 영역으로 남겨둔 것입니다.

능력과 신뢰 사이의 간극

화면을 보고 조작하는 에이전트는 아직 초기 단계입니다. 익숙한 인터페이스는 잘 다루지만, 예상치 못한 팝업이나 CAPTCHA, 동적으로 불러오는 콘텐츠, 처음 보는 레이아웃 앞에서는 흔들립니다. 구글이 이 기능을 독립형 모델이 아닌 내장 도구로 일반 공개했다는 건 그만큼 성숙했다는 신호이지만, 안전장치를 opt-in으로 둔 선택은 아직 사람 없이 혼자 돌리기엔 이르다는 인식을 동시에 드러냅니다.

결국 화면 조작 에이전트의 경쟁은 “버튼을 누를 수 있는가”에서 “그 일을 안전하게 할 수 있는가”로 옮겨가고 있습니다. 에이전트에게 화면을 맡긴다는 건 편리함과 함께 새로운 공격면을 함께 받아들이는 일이라는 점을, 이번 발표가 분명히 보여줍니다.

참고자료: Gemini 3.5 Flash can now see and control your screen, and Google wants enterprises to trust it – The Next Web

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Gemini 3.5 Flash가 화면을 직접 조작한다, 에이전트의 새 능력과 프롬프트 인젝션이라는 대가

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Gemini 3.5 Flash가 화면을 직접 조작한다, 에이전트의 새 능력과 프롬프트 인젝션이라는 대가

컨텍스트 윈도우는 200만 토큰까지 커졌는데, AI는 왜 방금 준 정보를 못 쓸까

GLM-5.2가 바꾼 것, 이제 오픈 모델은 싸기만 한 게 아니다

직접 만든 에이전트 코드, 이제는 짐이 됩니다, 하네스 시대의 개발 전략