TabFM – 정형 데이터를 제로샷으로 예측하는 Google 파운데이션 모델

기존 정형 ML과의 차이
학습 방식
벤치마크
사용 대상
관련 문서
참고 자료

TabFM은 Google Research가 공개한 정형 데이터(tabular data)용 파운데이션 모델이다. XGBoost나 랜덤 포레스트처럼 새 데이터셋마다 학습·피처 엔지니어링·하이퍼파라미터 튜닝을 반복하는 대신, 학습 예시와 예측 대상 행을 한 컨텍스트에 넣고 분류·회귀를 제로샷으로 수행한다.

기존 정형 ML과의 차이

접근	작동 방식	장점	한계
XGBoost·Random Forest	데이터셋별 모델 학습	강한 베이스라인, 실무 검증	튜닝·피처 엔지니어링 비용
LLM 기반 텍스트화	테이블을 텍스트로 변환	간단한 실험 가능	행·열 순서 불변성 반영 어려움
TabFM	테이블 구조를 직접 컨텍스트로 처리	제로샷 예측, 단일 forward pass	컨텍스트 크기와 벤치마크 일반화 확인 필요

TabFM은 테이블이 본질적으로 2차원이고 행·열 순서가 임의적이라는 점을 반영한다. Google은 TabPFN과 TabICL 계열 아이디어를 결합해 행·열 attention, 피처 토큰화, 인컨텍스트 예측 구조를 만든다.

학습 방식

정형 데이터는 기업 내부에 많지만 공개 학습용으로 쓰기 어렵다. 스키마가 비공개이고 개인정보·영업비밀이 섞이기 때문이다. TabFM은 이 문제를 피하기 위해 구조적 인과 모델(structural causal model)로 생성한 수억 개 합성 테이블에서 학습된다.

이 접근의 핵심 가정은 합성 테이블이 충분히 다양한 분포와 피처 상호작용을 담으면, 실제 테이블에도 일반화할 수 있다는 것이다.

벤치마크

Google은 TabArena 벤치마크에서 38개 분류 데이터셋과 13개 회귀 데이터셋으로 TabFM을 평가했다. TabArena는 모델 간 head-to-head 승률을 Elo 점수로 환산하는 living benchmark다.

결과 해석에서 중요한 점은 TabFM이 기존 트리 기반 모델을 완전히 대체한다는 주장이 아니라, 초기 베이스라인·빠른 프로토타이핑·자동 ML 파이프라인의 비용을 줄일 수 있다는 점이다. 충분한 데이터와 시간이 있으면 튜닝된 XGBoost가 여전히 강력한 선택지다.

사용 대상

고객 이탈, 사기 탐지, 리스크 스코어링처럼 정형 데이터 예측 업무가 반복되는 데이터 팀
새 데이터셋을 빠르게 훑어볼 AutoML·에이전트형 데이터 분석 시스템
테이블마다 모델 학습을 돌리기 어려운 저지연 예측·탐색 환경

참고 자료

Introducing TabFM: A zero-shot foundation model for tabular data — Google Research Blog (2026-06-30)
google-research/tabfm — GitHub 공식 저장소

Like?

AI Sparkup