PaperReview

[TDDL]Tabular Data: Deep Learning is Not All You Need

Black940514 2026. 2. 8. 14:31

Tabular Data: Deep Learning is Not All You Need

저자: Ravid Shwartz-Ziv, Amitai Armon
발행년도: 2021년
인용수: None회
논문 링크: http://arxiv.org/abs/2106.03253v2
arXiv ID: 2106.03253


테이블 데이터에서 딥러닝은 만능이 아니었다

이 논문을 집어든 이유

Kaggle 대회를 몇 번 참가하다 보면 자연스럽게 드는 의문이 하나 있었다. 테이블 데이터에서 왜 다들 XGBoost를 쓰는 걸까. 이미지에는 CNN, 텍스트에는 Transformer가 자리 잡은 지 오래인데, 테이블 데이터 영역만큼은 여전히 트리 기반 모델이 왕좌를 지키고 있었다. 최근 TabNet이나 NODE 같은 딥러닝 모델이 등장하면서 "이제 테이블도 딥러닝 시대"라는 이야기가 돌기 시작했다. 그런데 진짜일까?

그러던 중 제목부터 도발적인 논문을 발견했다. "Deep Learning is Not All You Need." Intel AI 그룹의 Ravid Shwartz-Ziv와 Amitai Armon이 2021년에 발표한 이 논문은, 최근 제안된 딥러닝 모델들이 정말로 XGBoost를 넘어섰는지 공정한 조건 아래서 검증했다. 사실 이 부분이 가장 끌렸다. 각 논문이 자기 데이터셋에서만 실험하고 "우리가 이겼다"고 주장하는 상황에서, 누군가 기준을 맞춰서 비교해줘야 했으니까.

핵심 문제: 공정한 비교가 없었다

이 논문이 파고든 핵심 문제는 간단했다. 테이블 데이터용 딥러닝 모델들이 저마다 다른 데이터셋, 다른 튜닝 방식으로 실험하고 있어서 누가 진짜 잘하는지 알 수가 없었다는 것이다. 이미지 분야에는 ImageNet이 있고, NLP에는 GLUE가 있다. 그런데 테이블 데이터에는 그런 표준 벤치마크가 없었다.

저자들은 이 문제를 두 가지 질문으로 정리했다. 첫째, 딥러닝 모델이 자기 논문에 안 나온 데이터셋에서도 잘 작동하는가. 둘째, 하이퍼파라미터 튜닝에 드는 시간과 노력은 얼마나 되는가. 사실 현업에서는 두 번째 질문이 첫 번째만큼이나 중요하다. 아무리 성능이 좋아도 튜닝에 일주일이 걸리면 쓰기 어렵기 때문이다.

비교 대상이 된 모델들

저자들이 비교한 딥러닝 모델은 네 가지였다. TabNet은 어텐션 기반으로 각 행마다 관련 피처를 선택하는 방식이었다. NODE는 결정 트리를 미분 가능하게 만들어 end-to-end 학습이 가능하도록 설계했다. DNF-Net은 논리식(DNF)을 소프트하게 근사하는 접근이었고, 1D-CNN은 Kaggle 대회에서 좋은 성적을 거둔 모델이었다.

처음에는 NODE의 아이디어가 인상적이었다. 트리 앙상블이 잘 작동하니까 트리 자체를 미분 가능하게 만들자는 발상이 꽤 직관적이었기 때문이다. TabNet의 피처 선택 메커니즘도 해석 가능성 측면에서 매력적이었다. 각 모델이 나름의 독창적인 아이디어를 가지고 있었는데, 문제는 이들이 같은 링 위에서 붙어본 적이 없다는 점이었다.

실험 설계: 같은 조건에서 겨루다

저자들은 11개 데이터셋을 사용했다. TabNet, DNF-Net, NODE 논문에서 각각 3개씩 가져오고, 어디에도 등장하지 않은 Kaggle 데이터셋 2개를 추가했다. 피처 수는 10개부터 2,000개까지, 샘플 수는 7,000개부터 1,000,000개까지 다양했다.

이 부분이 좀 재밌는데, 하이퍼파라미터 최적화에 HyperOpt(베이지안 최적화)를 사용하면서 모든 모델에 동일하게 1,000스텝을 부여했다. 초기 하이퍼파라미터는 각 원본 논문에서 가져왔다. 이렇게 조건을 맞춰놓으니 비로소 공정한 비교가 가능해졌다.

각 딥러닝 모델은 자기 논문에 나온 데이터셋에서는 가장 좋은 성능을 보였지만, 다른 데이터셋으로 가면 성능이 크게 떨어졌다.

이게 이 논문의 가장 핵심적인 발견이었다.

결과: XGBoost의 저력

결과를 보면서 솔직히 놀랐다. 11개 데이터셋 중 8개에서 XGBoost가 딥러닝 모델을 이겼다. 통계적으로도 유의미한 차이였다(p < 0.005). 각 모델의 "안 본 데이터셋"에 대한 평균 상대 성능 저하를 보면, XGBoost는 3.34%에 그쳤지만 NODE는 14.21%, DNF-Net은 11.96%, TabNet은 10.51%였다.

이 결과가 의미하는 바는 명확했다. 딥러닝 모델들이 선택 편향(selection bias) 문제를 안고 있었던 것이다. 각 논문이 자기 모델이 잘 작동하는 데이터셋을 골라서 보여줬을 가능성이 크다. 또 하나의 가능성은 하이퍼파라미터 최적화의 차이다. 자기 논문에 쓰인 데이터셋에 대해서는 훨씬 깊이 튜닝했을 것이다.

하이퍼파라미터 최적화 난이도도 흥미로운 결과를 보여줬다.

하이퍼파라미터 최적화 과정

이 그래프는 하이퍼파라미터 최적화 반복 횟수에 따른 각 모델의 loss 변화를 보여준다. XGBoost(빨간선)가 초반부터 낮은 loss에 수렴하는 반면, 딥러닝 모델들은 수백 번의 반복 후에도 높은 loss에 머무르거나 불안정한 모습을 보였다.

이 그래프를 보면 XGBoost는 기본 하이퍼파라미터만으로도 꽤 괜찮은 성능을 내고, 튜닝을 해도 빠르게 좋은 지점에 도달했다. 반면 딥러닝 모델들은 수백 번 반복해도 여전히 흔들리고 있었다. 현업에서 시간이 제한된 상황을 생각하면 이 차이는 꽤 결정적이다.

그래도 딥러닝이 무쓸모는 아니었다

논문의 긍정적인 발견도 있었다. 딥러닝 모델과 XGBoost를 함께 앙상블하면, XGBoost 단독보다 더 좋은 성능을 얻을 수 있었다. 평균 상대 성능 저하가 2.32%로 가장 낮았다. 흥미로운 점은 딥러닝 모델끼리만 앙상블하면 효과가 별로 없었고, XGBoost와 SVM, CatBoost 같은 전통적 모델끼리 앙상블해도 마찬가지였다는 것이다.

앙상블 모델 수에 따른 성능 변화

이 그래프는 앙상블에 포함되는 모델 수에 따른 loss 변화를 보여주는데, validation loss 기반으로 모델을 선택하면 3개만으로도 거의 최적 성능에 도달했다. 랜덤 순서로 모델을 추가하면 성능이 불안정했다.

딥러닝 모델과 XGBoost는 서로 다른 종류의 실수를 한다. 그래서 결합했을 때 시너지가 발생한다.

이게 앙상블의 핵심 원리이기도 한데, 이 논문에서 실제 데이터로 확인했다는 점이 인상적이었다.

솔직한 생각

이 논문을 읽고 나서 몇 가지 생각이 들었다.

먼저, 이 연구의 진짜 가치는 성능 비교 자체보다 방법론적 경고에 있다고 본다. 새로운 모델을 제안할 때 자기 데이터셋에서만 실험하고 결론을 내리는 관행이 얼마나 위험한지를 보여줬다. 테이블 데이터 분야에 ImageNet 같은 표준 벤치마크가 필요하다는 메시지도 설득력이 있었다.

다만 아쉬운 점도 있었다. 11개 데이터셋이라는 숫자가 충분한지는 의문이었다. 저자들도 인정했지만 "no free lunch" 원칙상 이 결과가 모든 테이블 데이터에 일반화된다고 보기는 어렵다. 또한 2021년 이후로 TabTransformer, FT-Transformer 같은 새로운 모델들이 계속 나오고 있어서, 현시점에서 이 결론이 여전히 유효한지는 후속 연구가 필요하다.

실무적으로는 명확한 교훈을 준다. 테이블 데이터를 마주했을 때, 시간이 제한적이라면 XGBoost부터 시작하라. 성능을 극한까지 끌어올려야 한다면 딥러닝 모델을 추가로 훈련해서 앙상블하라. 단, 딥러닝 모델 하나에 모든 것을 걸지는 말라.

나라면 여기서 한 발 더 나아가, 데이터셋의 어떤 특성이 딥러닝 모델에 유리하고 어떤 특성이 트리 모델에 유리한지를 분석해보고 싶다. 메타러닝 관점에서 "이 데이터셋에는 이 모델이 적합하다"를 예측하는 시스템이 있다면 실무에서 큰 도움이 될 것이다. 실제로 이후 Grinsztajn et al.(2022)의 "Why do tree-based models still outperform deep learning on tabular data?" 같은 논문이 이런 방향을 탐구했는데, 다음에 꼭 읽어봐야겠다.