PaperReview

[Deit] Deit: Training data-efficient image transformers & distillation through attention

Black940514 2025. 12. 27. 22:30

CNN 없이도 잘 되는 Vision Transformer는 어떻게 가능했을까?

Vision분야에서는 CNN -> Transformer로의 전환이 하나의 큰 흐름이 되었다.

그 중심에 있는 논문이 DeiT:Data-efficient Image Transformers 이다.

ViT(Vision Transformer)의 가장 큰 한계는 명확했다.

Transformer는 좋긴 한데,, 데이터가 너무 많이 필요하다.

DeiT는 이 문제를 "학습 전략"으로 정면 돌파한 논문.

1. 왜 Deit가 나왔는지

2. 핵심 아이디어

3. 실무/연구에서 어떤 의의가 있는지

정리해보겠다.

1. TL;DR

이 논문이 새롭게 문제 삼은 지점은 “ViT는 데이터가 커야만 된다”는 전제가 당연해진 상황 자체였다. 그 전제는 모델 구조의 한계라기보다 학습 레시피와 지식 전달 방식의 부재에서 온 제약처럼 보이기 시작했다. 그래서 DeiT는 “대규모 사전학습이 없는 조건에서도 트랜스포머를 학습 가능한 문제”로 다시 잡고, 그 조건을 만족시키는 학습 설계를 정면에서 밀어붙였다.

2. 이 논문을 읽기 전의 문제 인식

처음에는 ViT의 문제를 “표현력은 충분하지만 데이터 효율이 낮다”로 이해했다. 그래서 해결책도 자연스럽게 “더 큰 데이터, 더 긴 학습, 더 강한 정규화” 같은 방향으로만 떠올렸다. CNN은 ImageNet 같은 중간 규모에서도 잘 되는데 ViT는 안 된다는 비교가 계속 반복되었고, 그 차이는 곧 “귀납 편향의 부재”라는 설명으로 닫히는 느낌이 있었다고 생각했다.

그때 당연하게 받아들였던 전제는 단순했다. 트랜스포머는 NLP처럼 거대한 사전학습이 있어야 제맛이라는 전제였다. Vision에서도 JFT-300M 같은 초대형 데이터로 먼저 학습하고, 그 다음 다운스트림에 옮기는 흐름이 정답처럼 굳어져 있었다고 느꼈다. “ImageNet만으로 ViT를 학습하는 건 애초에 무리”라는 말이 질문이 아니라 결론처럼 쓰였다고 보였다.

그래서 문제 정의 자체가 좁아져 있었다. ViT를 “작은 데이터에서도 되는가”가 아니라 “큰 데이터가 있을 때 얼마나 잘 되는가”로만 평가하는 분위기였다. 작은 데이터 조건은 연구할 가치가 낮은 변두리 조건처럼 취급되었다고 느꼈다.

3. 읽다가 멈칫했던 지점

멈칫했던 지점은 저자들이 “데이터가 작아서 안 된다”를 먼저 받아들이지 않았다는 태도였다. 논문은 ViT가 ImageNet에서 안 되는 이유를 구조 탓으로 고정하지 않고, 학습 절차의 결핍으로 의심했다. 이때부터 “정말로 구조적 한계였나”라는 질문이 생겼다.

더 정확히는, 기존 ViT 결과들이 “동일한 조건 비교”가 아니었다는 점이 걸렸다. CNN은 수년간 축적된 증강, 정규화, 최적화 레시피가 사실상 표준처럼 붙어 있었는데, ViT는 그 레시피를 그대로 가져오지 못했거나 충분히 탐색하지 않았다는 뉘앙스가 보였다. 그러면 “ViT는 데이터가 커야 한다”는 결론이 구조에서 나온 결론인지, 레시피 부재에서 나온 결론인지가 불분명해졌다.

그리고 결정적으로, 지식 증류를 “모델 압축”이 아니라 “학습을 가능하게 하는 장치”로 가져온 발상이 눈에 걸렸다. 증류는 작은 모델을 만들기 위한 기술이라는 선입견이 강했는데, 여기서는 “트랜스포머를 ImageNet에서 제대로 학습시키는 핵심 조건”처럼 취급했다. 그 순간 문제 정의가 달라 보이기 시작했다.

4. 저자들이 다시 정의한 ‘문제’

DeiT가 다시 정의한 문제는 “비전 트랜스포머를 중간 규모 데이터셋에서, 외부 대규모 데이터 없이, 실용적인 비용으로 학습시키는 것”이었다. 여기서 중요한 변화는 성능 목표가 아니라 조건의 재설정이었다. “큰 데이터가 있으면 된다”가 아니라 “큰 데이터가 없다는 현실 조건에서도 되게 만들어야 한다”로 문제를 옮겼다.

기존 정의와 본질적으로 달랐던 점은 책임 소재가 바뀌었다는 점이었다. 예전에는 ViT의 성능 부족이 구조의 귀납 편향 부족으로 귀결되었다. DeiT는 그 부족을 인정하되, 그것이 곧 “불가능”을 의미하지는 않는다고 봤다. 대신 학습 신호를 어떻게 주느냐, 어떤 정규화와 증강으로 학습 경로를 안정화하느냐가 핵심이라고 문제를 다시 잡았다.

즉 “모델이 무엇을 학습할 수 있나”가 아니라 “우리가 어떤 조건을 제공해야 학습이 일어나나”로 관점이 이동했다. 이 이동이 DeiT의 출발점처럼 보였다.

5. 왜 기존 문제 정의로는 한계가 있었는가

기존 연구들이 공통으로 깔고 있던 가정은 “대규모 사전학습은 당연히 가능하다”였다. 하지만 많은 연구자와 실무자는 그런 데이터를 갖고 있지 않았다. 이 가정은 연구를 성능 경쟁으로 밀어붙이는 데는 유리했지만, 방법론의 이해를 빈약하게 만들었다고 느꼈다.

그 가정이 만든 구조적 한계는 재현성과 접근성의 붕괴였다. “JFT로 학습하면 된다”는 말은 사실상 “그 환경이 없으면 논의에 못 낀다”는 말이 되었다. 그러면 ViT의 실패 원인을 분석할 기회 자체가 줄어들었다. 실패는 구조의 탓으로 고정되고, 학습 설계의 탓으로 되묻지 않게 되었다.

성능과 일반화 측면에서도 문제가 있었다. 대규모 데이터는 많은 것을 가려준다. 작은 데이터에서 불안정한 최적화, 과적합, 학습 신호 부족 같은 문제가 큰 데이터에서는 덜 드러난다. 그러면 “왜 되는지”가 아니라 “큰 데이터라서 된다”로 설명이 끝나버렸다. 확장성도 비슷했다. 데이터 확장이 가능한 조직만 확장성의 혜택을 얻는 구조가 되었고, 방법의 보편성은 낮아졌다고 느꼈다.

6. 방법 개요 — 문제 정의의 결과물

6.1 전체 접근

이 문제 정의라면 결론은 “ImageNet 조건에서 ViT가 학습되도록 학습 신호를 설계해야 한다”로 모일 수밖에 없었다. 그래서 DeiT는 “구조를 바꾸기”보다 “학습을 바꾸기”에 집중했다. 외부 데이터 없이도 강한 지도 신호를 주기 위해, 이미 ImageNet에서 잘 학습된 CNN 교사로부터 지식을 전달받는 경로를 핵심으로 삼았다.

이 접근은 타협처럼 보이지만, 논문의 문제 정의에서는 정면 돌파였다. 대규모 데이터 대신 “교사 모델이 가진 결정 경계와 일반화 습관”을 학습 신호로 가져왔다. 데이터가 부족할수록 라벨의 정보량이 부족해지는데, 그 부족분을 교사의 소프트 타깃과 학습 다이내믹으로 채우겠다는 방향이었다고 이해했다.

6.2 핵심 구성 요소

핵심 구성 요소는 많아 보이지만, 다 같은 질문을 겨냥했다. “라벨만으로 부족한 학습 신호를 어떻게 보강할 것인가”라는 질문이었다.

지식 증류는 그 질문의 가장 직접적인 답이었다. 단순히 로짓을 맞추는 수준이 아니라, 트랜스포머가 학습 초기에 흔들리는 구간을 교사의 분포로 안정화시키려는 의도가 강하게 느껴졌다. 특히 “distillation token” 같은 장치는 구조적 장난이라기보다, 증류 신호를 모델 입력 수준에서 일관되게 흡수시키기 위한 통로처럼 읽혔다.

강한 데이터 증강과 정규화 레시피도 같은 맥락이었다. ViT는 CNN보다 쉽게 과적합하거나 학습이 불안정해진다는 직감이 있었고, DeiT는 그 부분을 “구조의 숙명”으로 넘기지 않았다. 오히려 “CNN이 잘 되는 이유 중 상당 부분은 레시피의 축적”이라는 사실을 ViT 쪽으로 이식하려고 했다. 결국 구성 요소들은 각각 다른 기능이 아니라, 같은 결핍을 다른 방향에서 메우는 장치로 보였다.

7. 실험 결과를 다시 보는 관점

실험은 “우리가 ViT를 제대로 학습시킬 수 있나”를 설득하려고 설계된 것처럼 읽혔다. 단순히 Top-1이 몇 올라갔다는 보고가 아니라, “외부 데이터 없이도 된다”는 조건을 지키면서도 CNN 강자들과 경쟁이 가능하다는 점을 보여주는 데 초점이 있었다.

그래서 비교의 의미가 달라졌다. DeiT의 숫자는 “ViT가 최고다”를 말하기보다 “ViT는 큰 데이터가 없어도 연구 가능한 대상이다”를 말하는 숫자였다. 이게 중요했다. 데이터 규모가 연구의 입장권처럼 굳어지면, 모델 구조의 진짜 성질은 분석되지 못한다. DeiT는 그 입장권을 낮추려 했고, 실험은 그 낮아진 문턱이 실제로 통과 가능하다는 증거로 기능했다고 보였다.

8. Ablation이 드러내는 핵심 가정

Ablation이 보여준 핵심은 “증류와 학습 레시피가 빠지면 ViT는 ImageNet에서 다시 불안정해진다”는 사실이었다. 저자들이 중요하다고 주장한 요소는 결국 “학습 신호의 밀도”와 “학습 과정의 안정성”이었다. 그 요소를 제거하면 성능이 떨어지는 것보다 더 중요한 일이 생겼다. “ViT는 원래 안 됐던 상태”로 되돌아가는 느낌이 났다.

이 지점에서 논문의 핵심 가정이 드러났다. 교사 CNN이 제공하는 신호가 단순한 성능 부스팅이 아니라, 트랜스포머가 좋은 해로 수렴하도록 안내하는 내비게이션이라는 가정이었다. 다시 말해 DeiT는 “라벨만으로는 부족하다”를 전제로 깔았다. 그리고 그 부족을 데이터가 아니라 교사 지식으로 채우는 전략을 선택했다.

9. 여전히 남는 질문

이 문제 정의가 해결하지 못한 지점은 “교사 의존”이었다. 외부 데이터는 안 썼지만, 강한 교사 모델이라는 또 다른 자원이 필요했다. 그래서 “대규모 데이터가 없으면 안 된다”가 “강한 교사가 없으면 안 된다”로 바뀐 것인지가 남는 질문이었다.

또 다른 질문은 일반성의 범위였다. ImageNet에서는 CNN 교사가 강력하고, 그 교사가 제공하는 편향이 유용했을 가능성이 크다. 그런데 다른 도메인이나 다른 라벨 구조에서는 교사의 편향이 독이 될 수도 있었다. DeiT의 문제 정의는 “중간 규모 데이터에서 학습 가능성”을 열었지만, “교사 없이도 가능한가”까지는 닫히지 않았다고 느꼈다.

마지막으로, 증류가 본질적으로 무엇을 전달했는지도 남았다. 로짓의 부드러움인지, 클래스 간 유사도 구조인지, 학습 초반의 안정화인지가 더 분해되어야 다음 단계로 갈 수 있다고 보였다.

10. 정리

이 논문을 한 문장으로 잡으면 이렇게 남았다.
이 논문은 “ViT는 큰 데이터가 있어야 한다”는 전제를 문제로 정의했고, 그 정의는 비전 트랜스포머 연구를 ‘구조 경쟁’에서 ‘학습 가능 조건의 설계’로 다시 보게 만들었다고 설명했다.