PaperReview

[time-series]Why do tree-based models still outperform deep learning on tabular data?

Black940514 2026. 2. 8. 11:07

Why do tree-based models still outperform deep learning on tabular data?

저자: Ravid Shwartz-Ziv, Armon Gal
발행년도: 2022년
인용수: 450회
논문 링크: https://arxiv.org/abs/2207.08815


테이블 데이터에서 왜 아직도 트리가 딥러닝을 이기는 걸까?

Kaggle 대회를 조금이라도 해본 사람이라면 알 것이다. 테이블 데이터에서는 XGBoost나 LightGBM 같은 트리 기반 모델이 거의 항상 이긴다는 사실을. 딥러닝이 이미지, 텍스트, 음성에서 압도적인 성능을 보여주는 시대인데, 왜 유독 테이블 데이터에서만 이런 현상이 벌어지는 걸까. 사실 이 질문이 오래전부터 궁금했다. 최근 TabNet, FT-Transformer, SAINT 같은 테이블 전용 딥러닝 모델이 쏟아져 나오면서 "이제 딥러닝이 트리를 넘었다"는 주장이 여기저기서 나왔는데, 진짜 그런지 제대로 검증한 연구가 없었다. 그러다 Grinsztajn 등이 2022년에 발표한 이 논문을 발견했다. 제목부터 직관적이었다. "왜 트리 기반 모델이 아직도 딥러닝을 이기는가?"

이 논문이 해결하려는 문제

테이블 데이터 분야에는 ImageNet이나 GLUE 같은 표준 벤치마크가 없었다. 새로운 딥러닝 아키텍처를 제안하는 논문마다 자기들에게 유리한 데이터셋 몇 개를 골라서 실험했고, 하이퍼파라미터 튜닝 노력도 제각각이었다. 그러다 보니 "우리 모델이 XGBoost를 이겼다"는 주장이 다른 데이터셋에서는 재현되지 않는 일이 반복되었다.

저자들은 이 문제를 두 갈래로 접근했다. 첫째, 45개 데이터셋으로 구성된 체계적인 벤치마크를 만들어서 공정하게 비교했다. 둘째, 단순히 "트리가 이긴다"에서 멈추지 않고 이기는지를 실험적으로 파헤쳤다. 이 두 번째 부분이 이 논문의 진짜 매력이었다.

벤치마크를 어떻게 설계했나

데이터셋 선정 기준이 꽤 꼼꼼했다. 이질적인 컬럼 구성, IID 데이터, 실세계 데이터 등의 조건을 걸었고, 너무 쉬운 데이터셋은 제외했다. 여기서 재밌는 기준이 하나 있었는데, 기본 로지스틱 회귀와 Resnet, HistGradientBoosting의 점수 차이가 5% 미만이면 "너무 쉽다"고 판단해서 빼버렸다. 결정론적 함수를 학습하는 체스나 포커 같은 게임 데이터셋도 제외했다.

하이퍼파라미터 튜닝도 신경 썼다. 각 모델에 대해 약 400회의 랜덤 서치를 돌렸고, 총 2만 시간의 컴퓨팅을 투입했다. 그리고 랜덤 서치 순서를 15번 셔플하면서 부트스트랩 방식으로 튜닝 분산까지 고려했다. 이 부분이 기존 벤치마크와 확실히 달랐다. 튜닝 예산에 따른 성능 변화를 추적할 수 있게 한 것이다.

비교 대상은 트리 쪽에서 RandomForest, GradientBoostingTree, XGBoost, 딥러닝 쪽에서 MLP, Resnet, FT-Transformer, SAINT였다.

결과: 트리가 여전히 이긴다

벤치마크 결과

결과는 명확했다. 중간 규모 데이터셋(약 1만 샘플)에서 트리 기반 모델이 모든 랜덤 서치 예산 구간에서 딥러닝을 앞섰다. 하이퍼파라미터를 아무리 많이 튜닝해도 딥러닝이 트리를 따라잡지 못했다. 계산 시간까지 고려하면 격차는 더 벌어졌다. 트리 모델은 CPU에서 빠르게 돌아가는 반면, 신경망은 GPU를 써도 한참 느렸다.

하이퍼파라미터 튜닝은 신경망을 SOTA로 만들어주지 못했다. 트리 기반 모델은 모든 랜덤 서치 예산에서 우위를 보였다.

한 가지 흥미로운 발견은, 범주형 변수가 딥러닝의 주된 약점이 아니라는 것이었다. 수치형 변수만 사용해도 트리와 딥러닝의 격차는 여전히 존재했다. 다만 대규모 데이터셋(5만 샘플)으로 가면 격차가 줄어드는 경향을 보였다.

핵심: 왜 트리가 이기는가

이 논문의 백미는 Section 5다. 저자들은 데이터를 변환해가면서 두 모델 계열의 inductive bias 차이를 실험적으로 밝혀냈다.

Finding 1: 신경망은 지나치게 매끄러운 함수를 학습한다. 저자들은 훈련 데이터의 타겟을 가우시안 커널로 점점 더 스무딩해봤다. 스무딩 강도를 높이면 트리 모델의 성능은 크게 떨어졌지만 신경망은 거의 변하지 않았다. 이게 뜻하는 바가 뭐냐면, 실세계 테이블 데이터의 타겟 함수에는 불규칙한 패턴이 많은데, 신경망은 그걸 원래부터 잘 학습하지 못하고 있었다는 것이다. 트리는 구간별 상수 함수를 학습하기 때문에 이런 불규칙 패턴에 강했다.

스무딩 실험 결과

Finding 2: 불필요한 피처가 MLP를 더 많이 괴롭힌다. 테이블 데이터에는 정보가 없는 피처가 많다는 사실을 먼저 보였다. GBT 기준으로 피처의 절반을 제거해도 성능이 크게 안 떨어졌다. 그런데 MLP 계열은 불필요한 피처를 추가하면 성능이 확 떨어지고, 제거하면 트리와의 격차가 줄어들었다. FT-Transformer는 이 문제에서 MLP보다 훨씬 견고했다.

Finding 3: 테이블 데이터는 회전 불변이 아니다. 이 부분이 처음엔 좀 헷갈렸는데, 알고 보니 핵심은 간단했다. MLP는 회전 불변 학습 알고리즘이다. 피처에 회전 변환을 가해도 학습 결과가 바뀌지 않는다는 뜻이다. 그런데 테이블 데이터에서 각 피처는 "나이", "몸무게"처럼 개별적으로 의미를 가진다. 이걸 임의로 회전시켜 섞어버리면 그 의미가 사라진다.

회전 실험 결과

실험 결과가 인상적이었다. 데이터를 랜덤 회전시키니까 성능 순위가 뒤집혀서 오히려 Resnet이 트리보다 높게 나왔다. 회전 불변성이 테이블 데이터에서는 오히려 이라는 뜻이다. FT-Transformer나 SAINT에 임베딩 레이어가 붙어있는 것도 이 회전 불변성을 깨뜨리는 효과가 있었던 것으로 저자들은 해석했다.

테이블 전용 신경망이 갖춰야 할 조건: 불필요한 피처에 강건할 것, 데이터의 원래 방향을 보존할 것, 불규칙한 함수를 쉽게 학습할 것.

솔직한 생각

이 논문의 가장 큰 가치는 "트리가 이긴다"는 결론 자체가 아니라, 왜 이기는지를 세 가지 구체적인 가설로 분해한 데 있다고 생각한다. 각 가설을 데이터 변환 실험으로 검증한 방식이 깔끔했다.

아쉬운 점도 있었다. 중간 규모(1만 샘플) 중심의 분석이라 대규모 데이터에서의 양상은 충분히 다뤄지지 않았다. 결측치 처리도 빠져있었고, 고카디널리티 범주형 변수 같은 실전 이슈도 다루지 않았다. 저자들도 이 한계를 인정하긴 했다.

실무적으로 이 연구에서 가져갈 메시지는 명확하다. 테이블 데이터를 다룬다면 일단 XGBoost부터 돌려보는 게 맞다. 그리고 딥러닝을 쓰고 싶다면 FT-Transformer처럼 피처 임베딩이 있는 모델을 선택하되, 불필요한 피처를 사전에 제거하는 것이 도움이 될 것이다. 나라면 여기서 한 발 더 나아가, 트리의 피처 중요도를 활용한 피처 선택 후 신경망을 학습시키는 파이프라인을 실험해볼 것 같다. 결국 두 모델 계열의 장점을 조합하는 방향이 현실적인 답일 수 있다.