OpenAI는 GPT-5.4 기반 ChatGPT for Excel을 베타 출시하며, 자체 IB(투자은행) 벤치마크에서 이전 모델 대비 2배 수준의 성능 향상을 달성했다고 밝혔습니다. 그런데 독립 기관인 Wall Street Prep이 같은 시기에 4개 AI 도구를 직접 테스트한 결과, ChatGPT는 꼴찌였습니다. 두 결과를 나란히 보면, 지금 AI 재무 도구 시장이 어디쯤 와 있는지가 좀 더 선명하게 보입니다.

OpenAI가 3월 5일 발표한 ChatGPT for Excel은 GPT-5.4를 Excel 워크북 안에 직접 탑재한 애드인입니다. 비슷한 시기에 Wall Street Prep은 Shortcut, Claude, Copilot, ChatGPT 4종을 동일한 실무 과제로 테스트한 벤치마크를 공개했는데, AI 도구가 실제로 얼마나 쓸 만한지를 가늠하는 데 유용한 기준점이 됩니다.
출처: Introducing ChatGPT for Excel and new financial data integrations – OpenAI
ChatGPT for Excel이란
3월 5일 베타로 출시된 ChatGPT for Excel은 Excel 사이드바에 ChatGPT를 애드인 형태로 심은 도구입니다. 자연어로 재무 모델 생성을 요청하면 수식과 구조를 그대로 유지하는 Excel 네이티브 워크북으로 결과물을 만들어주고, 여러 시트에 걸친 수식 연결을 추적해 “왜 이 수치가 바뀌었는지”도 설명해줍니다. 변경 전에 항상 사용자 승인을 요청하는 방식이라 감사 추적이 중요한 금융 환경을 염두에 둔 설계입니다.
GPT-5.4는 최대 100만 토큰의 컨텍스트를 지원하고, OpenAI의 내부 투자은행 벤치마크(3-statement 모델 구축 등 실무 작업 평가)에서 GPT-5의 43.7%에서 87.3%로 성능이 올랐다고 밝혔습니다. 동시에 Moody’s, LSEG, S&P Global, Dow Jones Factiva, MSCI 등 주요 금융 데이터 제공사와의 통합도 발표했습니다. 애널리스트가 Excel을 벗어나지 않고도 시장 데이터, 신용 정보, 뉴스를 바로 가져올 수 있게 하겠다는 구상입니다.
현재는 미국·캐나다·호주의 ChatGPT Plus, Pro, Business, Enterprise, Edu, Teachers 사용자 대상으로 순차 배포 중입니다.
독립 테스트가 보여주는 현실
Wall Street Prep은 Shortcut(v7.4), Claude(Opus 4.6), Microsoft Copilot(GPT-5 Agent Mode), ChatGPT(5.2) 4개 도구에 동일한 과제를 줬습니다. Apple의 실제 SEC 공시와 컨센서스 예측치를 바탕으로 3-statement 통합 재무 모델을 구축하라는 것이었고, 숙련된 애널리스트가 보통 2~3시간 걸리는 작업입니다.
종합 점수는 Shortcut 5.9 → Claude 5.5 → Copilot 4.4 → ChatGPT 2.5 순이었습니다. 그런데 이 점수들은 WSP 기준 하위 애널리스트 점수인 6.4에도 미치지 못합니다. 1위인 Shortcut조차 가장 낮은 수준의 인간 애널리스트보다 아래였습니다.
세부적으로 보면 각 도구의 성격 차이가 드러납니다. Claude와 Shortcut은 과제를 받은 뒤 예측 기준, 매출 세분화, 레이아웃 등을 먼저 확인하는 질문을 던졌습니다. Copilot과 ChatGPT는 아무 질문 없이 바로 시작했죠. Claude는 소싱과 모델링 결정에 대한 설명이 가장 풍부했고, EBITDA 역산을 올바르게 처리한 유일한 도구였습니다.
가장 조심해야 할 지점: 그럴듯한 오류
테스트에서 가장 경계해야 할 패턴이 포착됐습니다. Shortcut과 Claude 모두 역사적 재무 데이터를 상당 부분 틀리게 입력했는데, 문제는 오류가 눈에 띄지 않는 방식으로 숨어 있었다는 점입니다. 개별 항목은 틀렸지만 소계는 맞는 식이었습니다. 이를 잡아내려면 셀 하나하나를 직접 대조해야 하는데, WSP는 그 시간이 처음부터 수동으로 입력하는 것보다 오래 걸린다고 지적했습니다.
이 결과는 AI 도구의 활용 범위를 어디까지 신뢰할 수 있는지를 가르는 실질적인 기준이 됩니다. 수식 생성이나 시나리오 분석 구조 잡기는 AI가 잘 하는 영역이지만, 외부 데이터를 AI가 직접 가져오는 경우에는 독립적인 검증이 필수입니다.
AI가 Excel에 들어온다는 것의 의미
ChatGPT for Excel의 전략적 포인트는 도구 자체만큼이나 포지셔닝에 있습니다. OpenAI는 Microsoft 365 구독 없이도, $20짜리 Plus 플랜으로 접근 가능한 AI를 금융 워크플로우 한복판에 놓겠다는 계산입니다. Copilot이 M365 생태계 내부에서만 작동하는 데 비해, 소규모 부티크 펌이나 개인 애널리스트도 같은 기반의 도구를 쓸 수 있게 됩니다.
WSP 벤치마크에 사용된 ChatGPT는 5.2 버전으로 이번에 출시된 GPT-5.4보다 이전 모델입니다. 실제 성능 차이가 어느 정도인지는 GPT-5.4를 직접 같은 조건으로 테스트해봐야 알 수 있고, WSP는 분기별로 랭킹을 업데이트한다고 밝혔습니다. 금융 데이터 통합의 실용성, 복잡한 모델에서의 수식 정확도, 규제 환경에서의 거버넌스 요건이 앞으로 이 시장의 방향을 가를 변수가 될 것입니다.
참고자료: Ranking the Best AI Tools for Financial Modeling (2026) – Wall Street Prep

답글 남기기