AI 모델, 복잡한 차트 앞에서 성능 절반 이상 추락, RealChart2Code 벤치마크 결과

2026-04-24

﹒

AI 인사이트

﹒

2 minutes

Gemini가 기존 차트 벤치마크에서 96점을 받고, 같은 날 실제 데이터 기반 복잡한 차트 앞에서 50점으로 떨어집니다. 같은 모델인데 시험지만 바뀌었을 뿐입니다.

사진 출처: The Decoder

중국 여러 대학 연구팀이 AI 모델의 차트 시각화 코드 생성 능력을 실제 데이터로 평가하는 새 벤치마크 RealChart2Code를 발표했습니다. Kaggle의 실제 데이터셋 1,036개(약 8억 6천만 행)에서 추출한 2,800개 이상의 테스트 케이스로 Claude, Gemini, GPT 등 14개 모델을 평가한 결과, 기존 벤치마크에서 높은 점수를 기록하던 모델들이 복잡한 실전 차트 앞에서는 성능이 절반 이하로 무너졌습니다.

출처: RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation – arXiv

세 가지 시험, 세 가지 다른 능력

이 벤치마크가 기존과 다른 점은 단순히 ‘차트를 코드로 변환’하는 능력 하나만 보지 않는다는 겁니다. 세 가지 유형의 과제로 나눠 평가합니다.

차트 복제(Replication): 이미지만 보고 시각화 코드를 생성
차트 재현(Reproduction): 이미지와 원본 데이터를 함께 제공하고 코드 생성
차트 수정(Refinement): 오류가 있는 코드를 사용자와 대화하며 반복 수정

세 번째 과제가 특히 실무와 가깝습니다. AI에게 “이 부분 고쳐줘”를 반복하는 그 상황입니다.

기존 벤치마크가 숨겨온 것

연구의 핵심 발견은 ‘복잡도 갭’입니다. 쉬운 시험에서 잘 하던 모델이 어려운 시험에선 다른 모습을 보입니다.

Gemini 3 Pro Preview는 기존 벤치마크 ChartMimic에서 96%(정규화 기준)를 기록했지만 RealChart2Code에서는 약 50%로 떨어졌습니다. Qwen3-VL-235B는 같은 비교에서 85%에서 25% 미만으로 추락했습니다. 오픈소스 모델의 하락폭이 훨씬 컸습니다.

전체 성적표를 보면 유료 모델이 앞섭니다. Claude Opus 4.5가 평균 8.2점(8개 시각적 정확도 기준, 10점 만점)으로 1위, Gemini 3 Pro Preview가 8.1점으로 바로 뒤를 쫓았습니다. OpenAI GPT-5.1은 5.4점에 그쳤습니다. 오픈소스 최상위 모델인 Qwen3-VL-235B와 InternVL은 각각 3.6점, 3.4점으로 유료 모델의 절반에도 미치지 못했습니다.

실패하는 방식도 다르다

흥미로운 건 오픈소스 모델과 유료 모델이 서로 다른 방식으로 실패한다는 점입니다.

오픈소스 모델은 코드 실행 단계에서 무너집니다. 존재하지 않는 라이브러리를 만들어 호출하거나, 잘못된 함수를 사용하는 식입니다. Qwen3-VL-235B의 경우 약 20%의 사례에서 Matplotlib에 없는 파라미터를 그냥 써버렸습니다. 코드가 실행되더라도 서브플롯이 겹치거나 그리드가 깨지는 레이아웃 문제가 뒤따랐습니다.

유료 모델은 다릅니다. 문법 오류는 거의 없지만, 데이터를 엉뚱한 축에 배정하거나 시각 속성이 지정과 다르게 출력되는 식의 ‘세밀한 오류’가 많았습니다. 구조는 맞지만 내용이 틀리는 경우입니다.

반복 수정(Refinement) 과제에서는 유료 모델도 고전했습니다. 연구팀은 이를 “회귀적 편집”이라 불렀습니다. 한 곳을 고치면 이전에 맞았던 다른 부분이 망가지는 패턴입니다. 코드 전체의 일관성을 유지하면서 특정 부분만 수정하는 것이 현재 모델들에게 어려운 과제임을 보여줍니다.

벤치마크가 말해주는 것

이 연구는 AI가 “차트를 잘 다룬다”는 기존 평가가 얼마나 낙관적이었는지를 보여줍니다. 실제 데이터는 합성 데이터보다 지저분하고, 실제 시각화는 단일 차트가 아니라 여러 차트가 조합된 복합 레이아웃인 경우가 많습니다. 현재 AI 모델들은 이 간극에서 상당한 성능 손실을 겪습니다.

논문은 이외에도 8가지 시각 정확도 기준별 세부 성적과 자동 평가 시스템의 신뢰도 검증(인간 전문가 판단과 Cohen’s Kappa 0.83 일치) 등을 다루고 있습니다.

참고자료: Even the best AI models lose about half their performance when charts get complicated – The Decoder

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 모델, 복잡한 차트 앞에서 성능 절반 이상 추락, RealChart2Code 벤치마크 결과

세 가지 시험, 세 가지 다른 능력

기존 벤치마크가 숨겨온 것

실패하는 방식도 다르다

벤치마크가 말해주는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

취약점 탐지에 대형 AI가 필요 없다는 걸 증명한 모델들

영상에 소리까지 한 번에, 초당 10센트 Gemini Omni Flash 실사용 테스트

에이전트 하나에 객체 하나, Cloudflare Durable Objects가 에이전트에 잘 맞는 이유

중국 오픈웨이트 AI 무료로 쓸 수 있는데, 백도어 걱정은 안 해도 될까