RF-DETR: Neural Architecture Search for Real-Time Detection Transformers - 세미나 자료
저자: Robinson, Isaac, Robicheaux, Peter, Popov, Matvei 외 2명
발행년도: 2025년
인용수: None회
논문 링크: https://arxiv.org/abs/2511.09554
arXiv ID: 2511.09554
RF-DETR: Real-Time Detection Transformer를 위한 Neural Architecture Search
Robinson, Robicheaux, Popov et al. (Roboflow, CMU) — ICLR 2026
Problem & Motivation
객체 탐지 분야는 두 갈래로 갈라져 있었다. 한쪽에는 GroundingDINO, YOLO-World 같은 open-vocabulary VLM이 있어서 car, truck, pedestrian 같은 일상 클래스에는 인상적인 zero-shot 성능을 보였지만, pre-training에 등장하지 않은 도메인에서는 무너지는 약점을 안고 있었다. 다른 한쪽에는 D-FINE, RT-DETR 같은 specialist detector가 있어 COCO 벤치마크에서는 강력했지만, 실제 산업 데이터로 옮기면 generalization이 따라오지 못했다.
저자들은 이 specialist detector들이 사실상 COCO에 implicit overfitting 되어 있다고 지적했다. 모델 구조뿐 아니라 learning-rate scheduler와 data augmentation까지 COCO의 통계(이미지당 객체 수, 클래스 분포 등)에 맞춰 튜닝되어 있어, RF100-VL처럼 도메인이 다른 데이터셋에서는 실력을 발휘하지 못한다는 것이다.
또 하나의 병목은 hardware-aware NAS의 한계였다. 새로운 GPU가 등장할 때마다 supernet을 다시 학습해야 한다면, 산업 현장에서 NAS는 사치에 가까웠다. OFA(Once-for-All)가 분류 영역에서 weight-sharing NAS를 제시했지만, end-to-end 객체 탐지에 적용된 사례는 거의 없었다.
논문의 핵심 메시지는 한 줄로 정리되었다. Internet-scale로 pre-train된 ViT backbone과 end-to-end weight-sharing NAS를 결합하면, 단 한 번의 학습만으로 fine-tuning 없이 accuracy-latency Pareto curve 전체를 탐색할 수 있다는 것이다.

위 이미지는 RF-DETR이 단일 학습 한 번으로 연속적인 Pareto curve를 그려내며, COCO 검출·분할과 RF100-VL 모두에서 D-FINE, LW-DETR, YOLOv8/11을 우상향으로 밀어내는 것을 보여주었다. 특히 우하단 RF100-VL 패널에서 노란색 YOLO 계열은 모델을 키워도 정확도가 거의 정체되는 반면, RF-DETR(보라/분홍)은 latency가 늘수록 깨끗하게 정확도가 올라가는 차이가 두드러졌다.
Background & Related Work
DETR 계열은 짧은 기간 동안 빠르게 진화했다. 원조 DETR은 NMS와 anchor를 제거한 깔끔한 구조였지만 수렴이 느렸고, 이를 Deformable DETR, DAB-DETR, DINO가 점차 보완했다. RT-DETR과 LW-DETR은 마침내 DETR을 실시간 영역으로 끌어내려 YOLO 계열과 직접 경쟁할 수 있게 만들었다.
NAS 쪽에서는 OFA(Once-for-All) 가 분기점을 만들었다. 하나의 supernet에서 sub-net을 잘라 쓰는 weight-sharing 전략으로, 각 하드웨어마다 재학습할 필요가 없어졌다. 다만 객체 탐지에서는 NAS가 보통 backbone 교체 수준에 머물러, NAS-FPN처럼 부분 모듈에만 적용되어 왔다.
Open-vocabulary detector는 또 다른 흐름이었다. GroundingDINO나 YOLO-World는 텍스트 프롬프트로 임의 클래스에 대응했지만, fine-tuning을 하면 VLM pre-training의 효과가 사라진다는 문제가 있었다. 저자들은 부록에서 GroundingDINO를 class-name 프롬프트와 class-index로 fine-tuning한 결과가 거의 동일함을 보여주며, 이 점을 정량적으로 짚었다.
본 논문의 차별성은 명확했다. detection 전체 파이프라인(backbone + encoder + decoder + query)에 end-to-end weight-sharing NAS를 적용한 첫 사례라는 점이다.
RF-DETR Architecture
전체 파이프라인은 비교적 단순하게 정리되었다. DINOv2 ViT backbone이 입력 이미지의 multi-scale feature를 뽑고, windowed attention과 non-windowed attention을 교차로 쌓아 latency를 조절했다. 이렇게 추출된 feature는 projector를 거쳐 deformable cross-attention decoder로 들어가, 각 query가 bounding box와 class를 회귀하는 방식이었다.

위 이미지는 RF-DETR의 전체 모듈 흐름을 보여주었다. ViT backbone에서 windowed encoder layer가 두 번씩 끼어들어 cost를 낮추고, projector 출력이 detection head(deformable cross-attention)와 segmentation head(depthwise conv stack)로 동시에 갈라지는 구조였다. 모든 decoder layer에 detection/segmentation loss를 거는 점도 inference-time decoder dropping의 토대가 되었다.
LW-DETR 대비 변경점은 두 가지가 핵심이었다. 첫째, backbone을 CAEv2 → DINOv2로 바꿔 internet-scale prior를 보존했다. 둘째, projector의 BatchNorm을 LayerNorm으로 교체해 작은 batch size로도 학습이 가능하도록 만들었다. 이는 DGX 같은 대형 장비뿐 아니라 consumer GPU에서도 학습할 수 있게 한 실용적 결정이었다.
Instance segmentation head는 의도적으로 가볍게 설계되었다. Bilinear interpolation으로 encoder 출력을 업샘플링한 뒤 pixel embedding map을 만들고, 각 query embedding과의 dot product로 마스크를 생성했다. MaskDINO와 달리 multi-scale feature를 사용하지 않아 latency를 최소화한 것이 차별점이었다.
Pre-training은 Objects-365에 SAM2 pseudo-label을 붙여 detection과 segmentation head를 동시에 학습했다. Detection 데이터에 segmentation pseudo-label을 추가하는 식으로, 추가 라벨링 비용 없이 두 태스크의 prior를 동시에 흡수했다.
Weight-Sharing NAS Design
이 논문의 가장 큰 기여는 5가지 tunable knob을 정의하고 이들을 단일 학습으로 동시에 탐색했다는 점이다.

이 그림에서 (a) patch size는 더 작을수록 정확하지만 토큰 수가 많아 느려졌고, (b) decoder layer는 더 깊을수록 정확했으며, (c) query token은 더 많을수록 정확했고, (d) image resolution은 클수록 작은 객체 검출에 유리했으며, (e) window 수는 global mixing과 cost 사이의 균형을 결정했다. 다섯 축 모두 개별적인 trade-off 슬라이더로 작동한다는 점이 중요했다.
매 학습 iteration마다 5개 knob이 uniform random sampling되어 sub-net이 구성되었다. 이 무작위성은 단순히 search space를 커버하는 것을 넘어, architecture augmentation이라는 강력한 regularizer로 기능했다. Dropout이나 ensemble과 비슷한 효과를 architecture 수준에서 얻은 셈이다.
Inference time에 두 가지 경량화가 가능했다. (1) Decoder layer drop: 모든 decoder layer에 loss를 걸어 두었기 때문에, 마지막 몇 layer를 통째로 떼어내도 동작했다. 끝까지 떼어내면 single-stage YOLO와 유사한 구조가 되었고, 마지막 layer 하나를 제거하면 latency가 10% 줄고 정확도는 2 mAP만 떨어졌다. (2) Query drop: encoder 출력의 class logit을 기준으로 confidence가 낮은 query를 잘라냈다. 100개 정도는 거의 무손실로 제거할 수 있었다.
학습 측면에서는 scheduler-free training이 채택되었다. Cosine schedule은 고정된 optimization horizon을 가정해 다양한 데이터셋에 부적합했고, 대신 EMA scheduler를 사용했다. 데이터 augmentation도 의도적으로 horizontal flip + random crop만 남겼는데, VerticalFlip이나 HSV jitter는 self-driving 같은 safety-critical 도메인에서 잘못된 prior를 주입할 수 있다는 이유였다(예: 자율주행에서 사람을 거꾸로 뒤집는 augmentation은 비현실적).
학습 손실은 모든 decoder layer 에서 계산되어, decoder dropping을 supervised로 뒷받침했다.
Experiments & Results
평가는 COCO(detection + segmentation)와 RF100-VL(100개 도메인) 두 축으로 진행되었다. RF100-VL은 의료 영상부터 위성 사진, 산업 결함 검출까지 분포가 천차만별이라, COCO에서 좋은 모델이 실제 도메인 transfer에서도 강한지 가르는 시험대 역할을 했다.
저자들은 우선 latency benchmarking 자체를 표준화하는 데 한 절을 할애했다. 기존 보고치는 GPU power throttling 때문에 흔들렸고, FP32/FP16 quantization 정책이 모델마다 달라 공정한 비교가 어려웠다. 본 논문은 forward pass 사이에 200ms buffering을 넣어 throttling을 억제하고, 모든 모델을 동일 artifact·동일 quantization으로 측정했다. 그 결과 D-FINE이 보고했던 LW-DETR 대비 25% 가속이 사실은 reproducibility 문제였음을 드러냈다.
COCO 결과에서 RF-DETR (nano)는 D-FINE (nano)을 +5.3 AP로 압도했고, RF-DETR (2XL)은 60.1 AP를 넘긴 첫 실시간 detector가 되었다. RF-DETR (Max)는 61.8 AP까지 도달했다.
| 모델 (size) | # Params | Latency (ms) | AP (COCO) |
|---|---|---|---|
| YOLOv11 (N) | 2.6M | 2.2 | 37.1 |
| D-FINE (N) | 3.8M | 2.1 | 42.7 |
| RF-DETR (N) | 30.5M | 2.3 | 48.0 |
| D-FINE (M) | 19.2M | 5.4 | 55.0 |
| RF-DETR (M) | 33.7M | 4.4 | 54.7 |
| RF-DETR (2XL) | 126.9M | 17.2 | 60.1 |
RF100-VL에서는 더 극적인 결과가 나왔다. RF-DETR (2XL)은 GroundingDINO (tiny)를 +1.2 AP 능가하면서 약 20배 빠르게 동작했다. 즉 specialist detector가 internet-scale prior를 흡수하면 open-vocabulary VLM의 transfer 능력까지 따라잡을 수 있음을 보여준 결과였다.
Instance segmentation에서도 흐름은 같았다. RF-DETR-Seg (nano) 가 무려 YOLOv11-Seg (XL) 와 동등하거나 우위를 보였고, RF-DETR-Seg (2XL)은 49.9 AP로 MaskDINO에 근접하면서도 훨씬 빨랐다.
Ablation & Analysis
각 요소의 기여도는 LW-DETR (M)을 baseline으로 누적 분해되었다. Gentler hyperparams(작은 배치, 낮은 LR, LayerNorm)는 -1.0 AP로 일시적 손실을 냈지만 학습 가능성을 확보했고, DINOv2 backbone이 +2.0 AP로 이를 회수했다. 이어 O365 pre-training +0.7, NAS +0.3 순으로 누적 효과가 쌓여 LW-DETR 대비 latency 변화 없이 +2 AP를 얻었다.
Backbone 비교에서도 DINOv2가 CAEv2 대비 +2.4 AP로 가장 강력했고, SAM2 Hiera-S와 SigLIPv2는 FP16 환경에서 오히려 성능이 떨어졌다. 흥미롭게도 SigLIPv2는 파라미터가 더 많은데도 정확도가 낮았는데, 분류·segmentation 위주의 prior가 detection에 잘 맞지 않을 수 있다는 해석이 가능했다.

이 그림에서 동일한 decoder 깊이에서도 query를 300 → 200 → 100으로 줄이면 latency가 줄면서 정확도는 거의 유지되는 구간이 보였고, 100개 query를 dropping해도 정확도 손실이 미미했다. 반대로 decoder를 0개로 줄이면 정확도가 급격히 빠지는 cliff가 나타나, 다른 knob들과 달리 decoder는 일정 수준 이상이 필요하다는 점이 시각적으로 드러났다.
Fine-tuning의 효과는 데이터셋에 따라 갈렸다. COCO에서는 NAS regularization이 이미 강해 추가 fine-tuning 이득이 거의 0에 가까웠다. 반면 RF100-VL에서는 작은 데이터셋이 100 epoch 안에 수렴하지 못해 fine-tuning이 +0.4~0.5 AP의 의미 있는 향상을 가져왔다. NAS의 architecture augmentation이 사실상 강한 regularizer로 동작한다는 해석을 뒷받침하는 결과였다.
Fixed architecture transfer 실험은 또 다른 통찰을 주었다. COCO에서 찾은 Pareto-optimal 구조를 그대로 RF100-VL에 옮겨도 LW-DETR을 능가했고, 여기에 dataset-specific NAS를 더하면 추가 이득이 났다. 즉 NAS의 일부 효과는 architecture 자체에 내재되고, 일부는 데이터셋 특화에서 온다는 분해가 가능했다.
비판적 분석 & 정리
강점은 명확했다. (1) 단일 학습으로 continuous Pareto curve 전체를 얻어, 새 하드웨어가 들어와도 재학습 없이 sweet spot을 고를 수 있었다. (2) RF100-VL 100개 도메인에서 일관되게 우위를 보여 generalization을 정량적으로 입증했다. (3) Latency benchmarking protocol과 standalone tool을 함께 공개해 재현성 측면에서도 모범을 제시했다.
한계도 솔직하게 적시되었다. TensorRT 컴파일의 비결정성으로 latency에 ±0.1ms 변동이 남아 있었고, NAS search space는 여전히 hand-designed 5개 knob으로 제한되어 있었다. 또한 GroundingDINO를 fine-tuning하면 class-name prompting의 이점이 사라지는 현상은 관찰만 했을 뿐 원인 규명은 미해결로 남았다.
의문점도 남았다. DINOv2-S와 DINOv2-B 백본이 latency가 커질수록 다른 scaling 곡선을 그렸는데(Table 11), 그 원인이 충분히 분석되지 않았다. Search space를 더 넓혀 attention head 수, MLP ratio, query embedding dim까지 포함하면 어떤 추가 이득이 있을지도 후속 과제로 남았다.
후속 연구 방향으로는 세 가지가 떠올랐다. 첫째, VLM fine-tuning 시 open-vocabulary 지식을 보존하는 방법(예: LoRA, gradient masking). 둘째, search space의 자동 확장(meta-NAS). 셋째, segmentation head에 multi-scale feature를 도입할 때의 latency-accuracy trade-off 측정.
마지막으로 세 줄 takeaway로 정리하자면, (1) Pre-trained ViT + end-to-end weight-sharing NAS는 specialist detector의 새 표준이 될 가능성이 높았다. (2) COCO만으로 모델을 평가하면 implicit overfitting을 잡아낼 수 없으므로 RF100-VL 같은 다도메인 벤치마크가 필수였다. (3) 모델 설계만큼 latency 측정 protocol도 신중히 표준화해야 비교 자체가 의미를 가진다는 점을 이 논문은 분명히 보여주었다.
'PaperReview' 카테고리의 다른 글
| Recognition in Terra Incognita (0) | 2026.05.20 |
|---|---|
| RF-DETR Object Detection vs YOLOv12 (0) | 2026.05.14 |
| RF-DETR: Neural Architecture Search for Real-Time Detection Transformers (1) | 2026.05.14 |
| ByteTrack: Multi-Object Tracking by Associating Every Detection Box (0) | 2026.05.13 |
| Soft-NMS — Improving Object Detection with One Line of Code (0) | 2026.05.13 |