AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

구글 Deep Research API 공개: 금융 실사 며칠을 몇 시간으로

AI에게 “이 회사 투자해도 될까?”라고 물으면 뭐라고 답할까요? 지금까지는 단편적인 정보나 표면적 분석이 고작이었습니다. 하지만 구글이 공개한 Gemini Deep Research는 다릅니다. 시장 동향을 찾아보고, 경쟁사를 분석하고, 규제 리스크까지 파악해서 종합 보고서를 작성합니다. 마치 전문 리서처를 고용한 것처럼요.

사진 출처: Google Blog

구글이 Gemini Deep Research의 대폭 개선된 버전을 Interactions API를 통해 개발자들에게 공개했습니다. 이제 누구나 이 고급 리서치 에이전트를 자신의 앱에 통합할 수 있게 됐죠. 금융 실사부터 신약 독성 연구까지, 복잡한 조사 작업을 자동화하는 실제 사례들이 벌써 나오고 있습니다.

출처: Build with Gemini Deep Research – Google Blog

며칠 걸리던 실사, 몇 시간으로 단축

금융 회사들은 투자 전에 실사(due diligence)라는 과정을 거칩니다. 시장 신호를 모으고, 경쟁사를 분석하고, 규제 리스크를 점검하는 작업이죠. 보통 며칠씩 걸리는 이 작업을, Deep Research를 사용한 금융 기업은 몇 시간으로 줄였다고 합니다.

“실사 프로세스가 엄청나게 빨라졌습니다. 연구 사이클이 며칠에서 몇 시간으로 줄었는데, 정확성이나 품질은 전혀 떨어지지 않았어요. 마치 전문가 군대가 우리의 가장 야심찬 분석을 지원하는 것 같습니다.”

바이오테크 기업 Axiom Bio는 신약의 독성을 예측하는 AI 시스템을 만드는 회사인데요. 이들은 Deep Research가 생의학 문헌에서 “이전에는 인간 연구자만 할 수 있었던 수준 이상의” 세밀한 데이터와 증거를 찾아낸다고 평가했습니다. 약물 발견 파이프라인이 눈에 띄게 빨라졌다는 것이죠.

스스로 조사하고 보고서 쓰는 AI

Deep Research가 어떻게 작동하는지 궁금하실 텐데요. 이 에이전트는 반복적으로 조사를 계획합니다. 먼저 검색어를 만들고, 결과를 읽고, 빠진 정보가 뭔지 파악한 뒤, 다시 검색합니다. 이번 버전에서는 웹 검색이 대폭 개선되어 웹사이트 깊숙이 들어가 구체적인 데이터를 찾아냅니다.

핵심은 Gemini 3 Pro라는 모델을 사용한다는 점입니다. 구글이 “가장 사실적인 모델”이라고 자랑하는 이 모델은 특히 환각(hallucination)을 줄이도록 훈련됐어요. AI 에이전트가 여러 단계에 걸쳐 자율적으로 결정을 내릴 때, 한 번이라도 잘못된 정보를 만들어내면 전체 결과가 무용지물이 되기 때문에 이건 정말 중요합니다.

개발자들이 사용할 수 있는 기능도 인상적입니다. PDF나 CSV 같은 문서와 웹 데이터를 함께 분석하고, 프롬프트로 보고서 구조를 제어하고, 주장마다 세밀한 출처를 제공하고, JSON 형식으로 구조화된 결과를 받을 수 있습니다. 비용은 Gemini 3 Pro 모델과 동일해요. 입력 토큰은 백만 개당 2달러, 출력 토큰은 20만 토큰까지는 백만 개당 12달러입니다.

벤치마크 전쟁: 구글 vs OpenAI

구글은 새로운 벤치마크인 DeepSearchQA도 공개했습니다. 복잡한 다단계 정보 탐색 작업을 평가하는 테스트인데요. 17개 분야에 걸쳐 900개의 “인과 체인” 작업이 있고, 각 단계가 이전 분석에 의존합니다. 단순 사실 확인이 아니라 얼마나 포괄적으로 답을 찾는지를 측정하죠.

흥미로운 건 타이밍입니다. 구글이 Deep Research를 발표한 바로 그날, OpenAI가 GPT-5.2(코드명 Garlic)를 공개했거든요. 구글의 자체 벤치마크인 DeepSearchQA에서는 Deep Research가 66.1%로 GPT-5 Pro(65.2%)를 근소하게 앞섰습니다. 독립 벤치마크인 Humanity’s Last Exam에서는 46.4%로 GPT-5 Pro(38.9%)를 제법 앞섰고요.

하지만 브라우저 기반 작업을 평가하는 BrowseComp에서는 GPT-5 Pro(59.5%)가 Deep Research(59.2%)를 살짝 이겼습니다. 결국 어느 벤치마크로 측정하느냐에 따라 순위가 달라지는 셈이죠.

리서치 자동화의 현실과 한계

Deep Research 같은 도구들이 금융 실사나 문헌 조사를 몇 시간으로 줄인다는 건 분명 인상적입니다. 하지만 완벽한 건 아니에요. 벤치마크 점수가 40~60%대라는 건 여전히 절반 가까이는 틀릴 수 있다는 뜻이기도 하니까요.

그래서 실무에서는 “초안 작성자” 역할로 보는 게 맞을 것 같습니다. AI가 빠르게 자료를 모으고 1차 보고서를 만들면, 사람이 검증하고 보완하는 식이죠. 며칠 걸리던 걸 몇 시간으로 줄이는 건 충분히 의미 있는 변화입니다.

구글은 Deep Research를 곧 Google Search, NotebookLM, Google Finance, Gemini 앱에도 통합할 예정입니다. 앞으로는 사람이 직접 구글 검색을 하는 게 아니라 AI 에이전트가 대신 조사하는 시대가 올지도 모르겠네요.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다