AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Gemini 3가 보여준 AI의 3년: 시 쓰는 기계에서 논문 쓰는 동료로

2022년 11월, 와튼 스쿨 교수 Ethan Mollick은 GPT-3에게 “사탕으로 움직이는 초광속 엔진으로 수달을 피하는” 이야기로 시를 쓰라고 했습니다. AI가 그럴듯한 시를 뱉어내자 사람들은 감탄했죠. 그로부터 3년이 채 안 된 2025년, 같은 주제를 Google의 Gemini 3에게 주자 이번엔 시를 쓰는 대신 실제로 플레이할 수 있는 게임을 만들어냈습니다. 코드를 짜고, 인터페이스를 디자인하고, 작동하는 우주선 시뮬레이터를 완성한 겁니다.

3년 만에 AI는 단순히 똑똑해진 게 아니라 일하는 방식 자체가 바뀌었습니다.

Gemini 3 로고
사진 출처: Google Blog

Google이 공개한 Gemini 3는 회사 역사상 가장 강력한 AI 모델입니다. LMArena 리더보드에서 1501 Elo로 1위를 차지했고, GPQA Diamond에서 91.9%, 수학 벤치마크 MathArena Apex에서 23.4%를 기록하며 기존 모델들을 압도했습니다. 특히 복잡한 문제를 더 깊이 사고하는 Deep Think 모드는 OpenAI의 o1과 직접 경쟁하는 구도를 만들었죠. 발표 당일부터 Google 검색, Gemini 앱, 개발자 플랫폼에 즉시 배포되며 수억 명의 사용자에게 도달했습니다.

출처: Three Years from GPT-3 to Gemini 3 – One Useful Thing

숫자보다 중요한 것: 실제로 무엇을 할 수 있는가

벤치마크 점수는 빙산의 일각입니다. Ethan Mollick 교수는 Gemini 3의 진짜 능력을 테스트하기 위해 10년 전 자신이 크라우드펀딩 연구에 쓰던 지저분한 데이터 더미를 건넸습니다. “project_final_seriously_this_time_done.xls” 같은 파일명, 구식 통계 포맷, 손상된 데이터가 뒤섞인 상태였죠.

그는 Gemini 3에게 이렇게만 지시했습니다. “데이터 구조를 파악하고 정리한 다음, 기업가정신이나 경영전략 분야의 중요한 이론적 주제로 독창적인 논문을 써라.” 구체적인 힌트는 전혀 주지 않았습니다.

결과는 놀라웠습니다. AI는 손상된 데이터를 복구하고, 스스로 연구 가설을 세우고, 통계 분석을 수행한 뒤 14페이지짜리 논문을 완성했습니다. 심지어 자체적으로 “크라우드펀딩 아이디어의 독창성”을 측정하는 새로운 지표를 고안해 자연어 처리 도구로 구현하고 검증까지 했죠.

물론 완벽하진 않았습니다. 통계 방법론에 허점이 있었고, 일부 이론적 주장은 증거를 과도하게 확대 해석했습니다. 하지만 Mollick 교수가 “통계 방법론을 보강하고 크라우드펀딩 문헌을 더 다뤄라” 같은 추상적 피드백을 주자 AI는 즉시 이해하고 개선했습니다. 마치 2년차 박사과정 학생처럼 말이죠.

“PhD 수준 지능”이라는 말의 진짜 의미가 여기 있습니다. 모든 걸 완벽하게 처리하는 게 아니라, 방향을 잡고 스스로 진행하되 피드백을 받으면 개선할 수 있는 수준이라는 거죠.

챗봇에서 협업 도구로: Antigravity가 바꾸는 일하는 방식

Gemini 3와 함께 Google이 공개한 Antigravity는 단순한 코딩 도구가 아닙니다. “컴퓨터에서 하는 모든 일은 결국 코드”라는 전제 아래, AI를 대화 상대가 아닌 일을 맡기는 동료로 재정의합니다.

Antigravity의 핵심은 “Inbox” 시스템입니다. 여러 AI 에이전트에게 동시에 작업을 할당하고, 각 에이전트는 독립적으로 일하다가 승인이 필요하거나 도움이 필요할 때만 알림을 보냅니다. Mollick 교수는 자신의 뉴스레터 글 전체를 담은 디렉토리를 Gemini 3에 연결하고 이렇게만 말했습니다.

“내가 AI에 대해 한 예측들을 정리해서 매력적인 웹사이트로 만들어줘. 웹 검색해서 내가 맞았는지 틀렸는지도 확인해.”

AI는 모든 파일을 읽고, 예측들을 추출하고, 웹 검색으로 검증하고, 웹사이트를 코딩한 뒤 브라우저를 직접 제어해 작동을 확인했습니다. 중간에 딱 한 번, 구체적인 계획을 보여주며 승인을 요청했죠. Mollick이 몇 가지 수정 사항을 제안하자 AI는 즉시 반영하고 배포 가능한 패키지를 만들어냈습니다.

이 과정에서 환각 현상은 발견되지 않았습니다. 대신 나타난 문제들은 “인간적인” 것들이었습니다. AI가 의도를 잘못 이해했거나, 판단이 필요한 부분에서 다른 선택을 한 경우들이죠. Mollick의 표현을 빌리자면, “AI 실수를 고치는 인간”에서 “AI 작업을 지시하는 인간”으로의 전환입니다.

Deep Think: 빠른 답이 아닌 깊은 사고

Gemini 3의 또 다른 핵심은 Deep Think 모드입니다. 일반 모드에서도 이미 강력한 성능을 보이지만, Deep Think는 복잡한 문제에 더 많은 시간을 들여 사고합니다. Humanity’s Last Exam에서 일반 모드가 37.5%를 기록했다면 Deep Think는 41.0%를, GPQA Diamond에서는 91.9%에서 93.8%로 성능을 끌어올렸습니다.

OpenAI의 o1이 선보인 “추론 시간 확장” 전략을 Google도 본격적으로 채택한 겁니다. 이는 AI 경쟁의 축이 “얼마나 빠르게 답하는가”에서 “얼마나 깊게 생각하는가”로 이동하고 있음을 보여줍니다. 단순 정보 검색이 아니라 복잡한 문제 해결이 필요한 영역에서 AI의 역할이 커지고 있는 거죠.

여전히 매니저가 필요한 신입 직원

Gemini 3는 인상적이지만 완벽하지 않습니다. Mollick 교수가 생성한 논문도 그 자체로 학술지에 투고할 수준은 아니었습니다. 방향성은 좋았지만 세부 방법론, 이론적 정교함, 논증의 엄밀성에서 개선이 필요했죠.

하지만 이게 중요한 지점입니다. 3년 전 우리는 AI가 문법에 맞는 문장을 쓰는 것에 감탄했습니다. 지금은 AI가 쓴 14페이지 논문의 통계 방법론을 논의하고 있습니다. 문제는 “할 수 있느냐 없느냐”에서 “얼마나 잘 하느냐”로 바뀌었습니다.

Google의 풀스택 전략도 주목할 만합니다. 자체 인프라부터 모델, 제품까지 모든 레이어를 장악한 덕분에 발표 당일 즉시 수억 명에게 배포할 수 있었습니다. Gemini 앱 사용자 6억 5천만 명, AI Overviews 20억 명이 새로운 모델을 즉시 경험할 수 있다는 건 OpenAI나 Anthropic이 따라올 수 없는 규모입니다.

Mollick 교수의 표현대로, 챗봇 시대가 끝나고 디지털 동료 시대가 시작되고 있습니다. 아직은 모든 작업을 검토해야 하는 신입 직원 수준이지만, 업무의 방향을 잡고 피드백을 주면 독립적으로 진행할 수 있는 수준에 도달했습니다.

1,000일도 안 되는 시간 동안 AI는 우리가 일하는 방식을 근본적으로 바꾸고 있습니다. 그리고 이건 시작에 불과합니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다