Deep Learning Advances in Vision-Based Traffic Accident Anticipation: A Comprehensive Review of Methods, Datasets, and Future Directions - 세미나 자료
저자: Ruonan Lin, Tao Tang, Yongtai Liu 외 5명
발행년도: 2025년
인용수: None회
논문 링크: http://arxiv.org/abs/2505.07611v2
arXiv ID: 2505.07611
0. TL;DR
- 2018~2024년에 쏟아진 **Vision 기반 교통사고 예측(Vision-TAA)** 논문 147편을 이미지·비디오 / 시공간 / 장면 이해 / 멀티모달 4대 카테고리로 묶어낸 종합 서베이다.
- KITTI·DAD·CCD·A3D·DADA-2000·GTACrash 같은 데이터셋과 CNN·RNN·GAN·Transformer·GNN·YOLO/R-CNN 계열 모델 계보를 한 장의 지도 위에 겹쳐 놓았다.
- 데이터 희소성, 실시간성, 복잡 시나리오 일반화가 여전히 병목이며 저자들은 멀티모달 융합·자기지도학습·Vision Transformer를 다음 5년의 해법 후보로 지목했다.

출처: PDF (Page 5, Score: 90)
1. 왜 이 논문이 흥미로운가
THAT-Net이 사고가 터지기 0.48~2.8초 전에 충돌을 예측했다. 사람이 브레이크 페달로 손을 옮기는 데 평균 0.7초가 걸린다는 사실을 떠올리면, 이 숫자는 단순한 벤치마크가 아니라 한 명을 살리느냐 마느냐의 간격이다. 이 서베이는 그 1초를 앞당기기 위해 지난 7년간 시도된 거의 모든 비전 접근을 한 자리에 모아 비교했다.

출처: PDF (Page 5, Score: 75)
배경에는 정책적 압박도 깔려 있다. WHO 집계로 매년 약 119만 명이 도로 위에서 사망하고, UN은 2021~2030년을 "Decade of Action for Road Safety"로 지정해 사망자를 절반으로 줄이는 목표를 못박았다. 저자들은 사고를 사후에 "검출"하던 패러다임이 사고 직전을 예측(Anticipation) 하는 쪽으로 옮겨가는 변곡점을 짚으면서, 대시캠·CCTV·심지어 GTA V 게임 영상까지 데이터 소스가 어떻게 진화했는지 한눈에 보여주었다.
2. Problem & Why now
문제 정의는 간결하다. 차량 탑재 카메라나 노변 CCTV 영상만 가지고 충돌이 발생하기 전에 사고 확률과 TTA(time-to-accident) 를 추정하는 것이다. 입력은 연속된 프레임이고, 출력은 "지금부터 몇 초 뒤 사고가 날 가능성"이라는 단일 스칼라 혹은 위험 영역의 분포다.
기존 한계는 세 겹으로 쌓여 있다. 첫째, 결정 트리·SVM 같은 전통 머신러닝은 소규모 정형 데이터에서는 잘 동작했지만, 고차원·동적·다객체가 얽힌 트래픽 패턴을 잡지 못했다. 둘째, 단일 프레임 기반 CNN·YOLO·R-CNN 검출기는 짧은 단편적 프레임에 의존한 탓에 시간 연속성과 가림(occlusion) 에 취약했다. 셋째, LSTM·GRU 같은 시퀀스 모델조차 장기 의존성, 라벨 부족, 노이즈 민감성이라는 고질병을 남겨두었다.
지금이 변곡점인 이유는 두 가지다. 한쪽에서는 대시캠 보급과 영상 공개로 실세계 데이터가 빠르게 쌓이고 있고, 다른 한쪽에서는 어텐션·그래프·생성모델이 사고처럼 희귀하면서도 상호작용 중심인 사건을 다루는 데 충분히 성숙해졌다. 데이터와 모델이 동시에 임계점을 통과한 시점이다.
저자들이 147편을 훑은 끝에 내린 인사이트는 단순하다. 단일 모달·단일 시점의 개선만으로는 한계가 분명하며, 시공간 그래프 + 멀티모달 + 어텐션의 결합이 일반화의 진짜 열쇠라는 것이다. 사고 예측은 본질적으로 "여러 객체가 시간 위에서 어떻게 상호작용하는가"라는 관계 문제이기 때문이다.
3. Background
먼저 사전지식 지도부터 정리할 필요가 있다. 비전 기반 사고 예측의 기반 블록은 다섯 갈래다. 공간 특징을 뽑는 CNN, 시간 의존성을 잇는 RNN·LSTM·GRU, 데이터 부족을 합성으로 메우는 GAN, 멀리 떨어진 객체 사이의 위험 관계를 잡는 Transformer의 self-attention, 그리고 차량·보행자를 노드로 보고 메시지 패싱하는 GNN이다. 여기에 실시간 객체 위치를 공급하는 Faster R-CNN·YOLO·SSD 계열 검출기가 파이프라인 앞단을 차지한다.
관련 연구의 계보는 비교적 또렷하게 흘러왔다. SVM·결정 트리 중심의 전통 ML(Tang 2020 등)에서 출발해, Chan 2017의 DSA-RNN이 대시캠 영상에 어텐션을 처음 결합했고, Faster R-CNN 기반 검출이 객체 단위 분석을 끌어올렸다. 이후 Bao 2020이 GCN+RNN으로 시공간 그래프를 도입했고, Karim 2022의 DSTA(Dynamic Spatio-Temporal Attention) 가 시간·공간 어텐션을 동시에 학습했으며, Liao 2024는 LLM을 결합해 사고 원인 설명까지 시도했다.
선행 서베이와의 차별점도 명확하다. Vision-TAA를 처음 개념화한 Fang 2023은 일반론 중심이라 최신 멀티모달·LLM 흐름을 담지 못했고, Sarker 2021은 딥러닝 일반을 다뤘으며, Behboudi 2024는 머신러닝·딥러닝 사고분석을 risk/frequency/severity 축으로 묶었지만 "예측" 자체에는 좁게 다가갔다. 이 논문은 Anticipation을 중심에 놓고 데이터셋·방법·한계를 4분류로 통합 매핑했다는 점에서 결이 다르다.
| 서베이 | 초점 | 분류 축 | 한계 |
|---|---|---|---|
| Fang 2023 | Vision-TAA 일반 | 방법 / 벤치마크 | 최신 멀티모달·LLM 흐름 미반영 |
| Sarker 2021 | 딥러닝 일반 | 알고리즘 패밀리 | 사고 예측 특화 부족 |
| Behboudi 2024 | ML/DL 사고분석 | risk / frequency / severity | Anticipation 협소 |
| 이 논문 (2025) | Vision-TAA Anticipation | 4대 방법 + 데이터셋 + 모델 | 정량 메타분석은 표 수준에 머묾 |
4. Method
저자들이 147편을 훑은 끝에 정리한 Vision-TAA 파이프라인은 결국 하나의 흐름으로 수렴했다. 영상(대시캠·CCTV·합성)을 받아 → 객체 탐지(YOLO/SSD/Faster R-CNN)로 차량·보행자 박스를 뽑고 → 공간 특징(CNN/3D-CNN)과 시간 특징(LSTM/GRU/Quasi-RNN)을 병렬로 학습한 뒤 → 어텐션·GCN으로 객체 간 상호작용을 강조하고 → 멀티모달 융합(시맨틱·드라이버 시선·날씨센서·LLM 텍스트)을 거쳐 → 사고 확률과 TTA(time-to-accident) 를 출력한다. 서베이는 이 흐름을 4대 카테고리 — Image/Video Feature, Spatio-Temporal, Scene Understanding, Multimodal Fusion — 으로 잘라 비교했다.

출처: PDF (Page 4, Score: 90)
flowchart LR
A[Dashcam/CCTV/GTA] --> B[Detector<br/>YOLO·SSD·R-CNN]
B --> C[Spatial CNN/3D-CNN]
B --> D[Temporal RNN/LSTM/GRU]
C --> E[Graph + Attention<br/>GCN·DSA·DTA]
D --> E
E --> F[Multimodal Fusion<br/>+ Driver Attn / LLM]
F --> G[Accident Prob & TTA]
모듈 A: Image/Video Feature 기반 — 프레임을 잘게 본다
가장 오래된 갈래다. CNN·SSD·YOLO·Faster R-CNN으로 프레임 단위 객체 박스를 뽑고, 그 위에 짧은 시퀀스 분류기를 얹어 사고를 식별한다. 대표 사례로 Chan et al. (2017)의 DSA-RNN은 대시캠 영상에 동적 공간 어텐션을 결합해 객체 단위 위험도를 가중했고, Ren et al.은 Region Proposal Network로 검출 효율을 끌어올렸다.
Andrea et al. (2023)은 YouTube에서 추출한 대규모 이미지로 학습한 YOLOv8 모델로 평균 정확도 0.954를 보고했고, Basheer Ahmed et al. (2023)은 YOLOv5 + DeepSORT 조합에 병렬 컴퓨팅을 더해 추론 시간을 단축하며 정확도 99.20% 를 찍었다. 숫자만 보면 화려하다. 다만 저자들은 이 계열이 "짧은 시간 조각에 의존하고, 배경이 복잡하거나 가림이 발생하면 흔들린다"는 점을 한계로 지적했다.
위 그림에서 Convolution과 Pooling이 두 단계 반복되며 점점 작은 feature map으로 정제된 뒤 Fully Connected에서 클래스 확률로 사상되는 구조를 확인할 수 있었다. Vision-TAA의 모듈 A가 이 구조를 프레임 묶음 위에서 반복 적용한다는 점에서, "공간"이라는 한 축의 표현을 어떻게 압축하느냐가 객체 탐지 정확도의 상한을 결정했다. 3D-CNN으로 확장되면 시공간을 한꺼번에 흡수하지만, 연산량이 가파르게 늘어나 실시간성과 충돌했다.
모듈 B: Spatio-Temporal Feature 기반 — 시간을 함께 본다
핵심은 "사고는 한 장이 아니라 흐름"이라는 통찰이다. Bao et al. (2020)은 GCN + RNN으로 객체 간 시공간 관계를 학습해 사고 확률을 예측했고, Wang et al. (2023)은 GSC(Graph-based Spatio-temporal Continuity) 프레임워크로 인접 행렬을 새로 정의해 에이전트 연속성을 유지했다. Karim et al. (2022)의 DSTA는 동적 시간 어텐션(DTA)과 동적 공간 어텐션(DSA)을 GRU와 결합해 사고 확률을 두 개 벤치마크에서 SOTA로 끌어올렸다.
가장 눈에 띄는 건 Liu & Zhang (2023)의 THAT-Net이다. 공간 스트림과 시간 스트림을 통합한 이중 GRU 은닉상태 재집계 구조로, 프레임·세그먼트 두 수준의 가중치를 따로 학습한다. 결과는 사고 발생 0.48~2.8초 전 예측. 사람이 브레이크에 손을 옮기는 0.7초보다 빠르다.
위 이미지에서 $f_t$, $i_t$, $o_t$ 세 시그모이드 게이트가 cell state $c_{t-1} \to c_t$ 의 흐름을 어떻게 조절하는지 확인할 수 있었다. THAT-Net이 GRU 은닉 상태를 프레임 단위로 재집계할 수 있었던 이유가 이 게이팅에서 비롯됐다. 사고 시퀀스는 보통 30~100 프레임에 걸쳐 천천히 위험이 누적되는데, 단순 RNN이라면 vanishing gradient로 초기 신호가 사라졌을 자리다.
모듈 C: Scene Understanding 기반 — 장면 의미를 본다
Huang et al.은 Gated Graph Convolutional Multi-Task 모델로 도시 도로 이미지와 사고 데이터를 함께 학습했고, Zhou et al.의 RiskOracle은 다중 작업 차분 시간변화 그래프와 계층적 영역 선택으로 분 단위 도시 사고 예보를 시도했다. Jewel Rana Palit et al.은 CNN + GRU 하이브리드로 신호 교차로 근접 충돌을 다뤘다. 객체 인식을 넘어 시맨틱 컨텍스트를 끌어들인 갈래다.
위 그림에서 입력 그래프가 GNN Layer를 거치며 노드·엣지·그래프 단위 임베딩으로 분리되고, 학습 셋업(supervised / semi / unsupervised)과 태스크 수준이 분기되는 흐름을 확인할 수 있었다. Vision-TAA에서 차량·보행자를 노드로, 상호작용을 엣지로 놓으면 "여러 객체가 동시에 위험에 진입하는 사건"이 자연스럽게 메시지 패싱으로 표현됐다. 단일 CNN으로 잡히지 않던 관계적 위험을 정의 가능하게 만든 지점이다.
모듈 D: Multimodal Fusion 기반 — 모달을 섞는다
Bao et al. (2020)의 DRIVE는 인간 시각 어텐션을 모사한 심층 강화학습 모델이고, Fang et al.의 SCAFNet은 이미지의 시맨틱 컨텍스트 특징을 GCN으로 모델링했다. Dao et al. (2024)은 YOLOv8 + LSTM + 날씨 센서를 엣지에서 돌려 96.01% 정확도를 보고했고, Liao et al. (2024)은 대시캠 + 드라이버 어텐션 차트 + 텍스트 설명 + LLM을 결합해 멀티모달 정확도 99.7% 와 사고 원인 자연어 설명까지 달성했다.
핵심 수식과 직관
GAN은 사고 데이터의 본질적 희소성을 합성으로 메우는 도구로, 생성기 $G$ 와 판별기 $D$ 가 다음의 minimax 게임을 푼다.
$$\min_{G}\max_{D}; V(D,G) = \mathbb{E}{x\sim p{data}}[\log D(x)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z)))]$$
수식의 의미는 단순하다. $D$ 는 진짜 사고 영상에 1, 가짜에 0을 부여하도록 학습되고, $G$ 는 $D$ 를 속이도록 학습되어 결과적으로 $p_g \to p_{data}$ 로 수렴한다. DCGAN이 Vision-TAA에서 효과를 본 이유가 여기 있다 — 실세계에서 사고 클립은 비사고 대비 10:1 이상으로 적은데, $G$ 가 그 빈 자리를 메워 데이터 균형을 회복시켰다.
위 그림에서 Random Variable을 입력받은 $G$ 가 가짜 이미지를 만들어 $D$ 에게 던지고, $D$ 가 Real Samples와 비교해 True/False를 판정하는 폐루프를 확인할 수 있었다. Lin et al. (2020), Chen et al. (2021) 같은 후속 연구가 이 구조 위에서 DCGAN·improved GAN으로 사고 영상을 증강했고, 저자들은 이를 "데이터 불균형 해결의 가장 검증된 경로"라고 정리했다.
두 번째 수식은 Transformer의 어텐션이다. 객체 토큰 집합에 대해
$$\mathrm{Attention}(Q,K,V) = \mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$
가 멀리 떨어진 객체 쌍 사이의 위험 상관을 길이에 상관없이 한 번에 잡았다. 사고는 종종 "20 프레임 전 옆 차선 차량의 이상한 가감속"에서 단서가 나오는데, RNN은 이를 게이팅으로 끌고 가야 하지만 어텐션은 직통이다. 빠르다.
세 번째는 AdaLEA(Suzuki 2018) 류의 Anticipation Loss다. 사고 시점 $t^*$ 와 예측 시점 $t$ 의 차이에 가중을 주어,
$$\mathcal{L}{\mathrm{ant}} = -\sum{t=1}^{t^} w(t^-t)\cdot \log p_t(\mathrm{accident})$$
처럼 일찍 맞출수록 큰 보상을 주는 형태다. Suzuki et al.의 Quasi-RNN+AdaLEA가 정확도 99.1%, 조기성 점수 62.1%를 동시에 보고할 수 있었던 배경에는 이 손실이 "정확도와 조기성의 trade-off"를 학습 신호에 직접 박아 넣은 설계가 있었다.
학습 전략은 보수적이다. 저자들은 거의 모든 후보 논문이 TensorFlow·PyTorch 위에서 GPU 가속을 쓰고, 그리드 서치·교차검증으로 하이퍼파라미터를 잡으며, 데이터 증강에 GAN을 끼우고, 평가는 Accuracy/Precision/Recall/F1로 묶었다고 정리했다. 모델 다양성에 비해 학습 파이프라인은 상당히 표준화되어 있었다.
5. Experiments
서베이의 실험 단면은 Table 1에 응축되어 있었다. 데이터셋은 실세계(KITTI·CCD·CADP·DAD·A3D·NIDB·PNM), 행동/멀티태스크(DRAMA·SUTD-TrafficQA·DADA-2000), 합성(GTACrash·DoTA)의 세 묶음으로 갈리고, 입력은 대부분 대시캠(Dashcam)에 일부 CCTV·전방 카메라가 섞였다. 메트릭은 Accuracy 위주에 mTTA(평균 사고 예측 선행시간), AP가 보조로 등장했다.
메인 결과 표를 그대로 옮겨 보면 흐름이 보인다. Chan 2017 dSA-RNN 74.35%에서 출발해, Suzuki 2018 Quasi-RNN + AdaLEA가 99.1%/62.1%로 정확도와 조기성을 동시에 끌어올렸다. Karim 2021 Gated GRU는 94.02%, Karim 2022 DSTA는 72.60%로 데이터셋에 따라 흔들렸다. Wang 2023 GCN 계열은 60.4%94.9% 폭으로 분산이 컸고, Liu 2023 THAT-Net은 77.8%99.5% 사이에서 lead time 0.48~2.8s 를 같이 보고했다.
가장 높은 정확도 구간은 멀티모달이 차지했다. Basheer Ahmed 2023 YOLOv5 + DeepSORT 99.20%, Thakur 2024 GCN 99.9%, Liao 2024 Attention + LLM + Multimodal Large-scale이 99.7%, Dao 2024 YOLOv8 + LSTM + 날씨센서 96.01%로 줄을 섰다. 신호 교차로 카메라 기반 경량 모델(Lee 2023)이 20%~59%로 가장 낮은 구간을 형성하며 도메인 갭을 드러냈다.
Ablation 관점에서 표를 가로지르면 일관된 경향이 잡혔다. Image/Video < Spatio-Temporal < Scene Understanding < Multimodal 순으로 평균 성능이 우상향했고, 같은 백본이라도 어텐션 또는 GCN을 추가하면 정확도가 7~15%p 가량 뛰는 패턴이 반복됐다. 특히 GRU 단독(72.60%, Karim 2022)에 DSA·DTA를 같이 얹은 변형이 동일 저자 라인에서 성능 견인 효과를 보였다.
시간성 성능도 빠뜨릴 수 없다. THAT-Net의 lead time 2.8초는 충돌 회피 시스템 입장에서 보면 자동 제동 트리거가 충분히 동작할 수 있는 여유다. 반면 정확도 99%대를 달성한 멀티모달 모델 중 다수가 mTTA를 명시하지 않았다는 점도 짚어야 했다 — "맞히긴 맞히는데 언제 맞히느냐"가 실제 안전 가치를 결정한다.
저자들의 ablation 메시지는 분명하다. 단일 모달 SOTA는 99% 부근에서 포화 신호를 보였고, 추가 이득은 멀티모달 + 사전훈련 + 시공간 어텐션의 조합에서만 나왔다는 것이다. 다만 표 안에서 데이터셋이 통일되지 않아 직접 비교가 어렵다는 한계는 서베이가 스스로 인정하는 약점이었다.
6. 직관과 시각 자료
서베이의 figure는 모두 기반 아키텍처 도식이라, 본문이 어떤 빌딩블록 위에 서 있는지를 가늠하는 데 유용했다. 그중 두 장이 가장 많은 것을 압축했다.
위 그림은 입력 feature map $X_{in}$ 이 Tokenization을 거쳐 $T_{in}$ 토큰 시퀀스가 되고, Transformer 블록을 통과한 $T_{out}$ 이 Projection으로 다시 $X_{out}$ 으로 환원되는 순환을 보여주었다. Vision-TAA에서 self-attention의 가치가 또렷해지는 지점이다. 30프레임 떨어진 두 객체의 상호작용을 RNN처럼 게이팅으로 전달할 필요 없이 한 번의 행렬곱으로 묶을 수 있었고, 저자들이 "다음 5년의 해법 후보"로 Vision Transformer를 지목한 근거가 여기에 있었다. Liao 2024가 LLM과 결합한 사고 설명까지 도달할 수 있었던 출발점도 결국 이 토큰화 구조였다.
위 이미지에서 입력 이미지에 대해 region proposal을 먼저 추출하고, 각 영역에서 CNN 특징을 계산한 뒤, "aeroplane? no / person? yes / tv? no" 식으로 영역별 다중 분류를 수행하는 R-CNN의 2-stage 구조를 확인할 수 있었다. 단순해 보이지만 Vision-TAA에 던지는 함의는 컸다. Faster R-CNN이 region proposal을 RPN으로 내재화하면서 객체별 위험도를 시간 모델에 공급하는 표준 입구가 됐고, Karim et al.이 바운딩 박스와 옵티컬 플로우를 어텐션 모듈에 묶을 수 있었던 토대도 정확히 이 그림이었다. 한 장의 도식이 모듈 A와 모듈 D를 잇는 다리 역할을 한 셈이다.
7. Critical View
서베이를 다 읽고 나서 가장 먼저 걸린 건 Table 1의 비교 불능 문제였다. Chan 2017의 74.35%, Karim 2022의 72.60%, Thakur 2024의 99.9%가 같은 표 위에 나란히 놓여 있는데, 데이터셋이 DAD인지 CCD인지 A3D인지에 따라 난이도 자체가 달라진다. 저자들도 "정량 메타분석은 표 수준에 머묾"이라고 자인했지만, 솔직히 이 정도 규모(147편)의 서베이라면 데이터셋별로 정규화한 leaderboard 하나쯤은 따로 떼어내야 했다. mTTA를 보고하지 않은 멀티모달 모델이 99%대 정확도를 자랑하는 장면은, 안전공학 관점에서 보면 "맞히는 시점이 사고 0.1초 전이라면 무의미하다"는 의문을 그대로 남긴다.
두 번째로 도드라진 건 도메인 편향이다. DAD·A3D 같은 동아시아 대시캠이 벤치마크의 중심을 차지하고 있는데, §5에서 짚은 99.20%·99.7%·99.9% 같은 숫자들이 야간·우천·터널·고속도로 진출입처럼 실제 사고 빈도가 높은 상황에서도 유지되는지에 대한 단면이 없다. GTACrash 같은 합성 데이터로 빈자리를 채우는 흐름은 영리하지만, 합성→실세계 도메인 갭을 어떻게 정량화할지에 대한 논의가 거의 보이지 않았다. 저자는 GAN 증강을 "데이터 불균형 해결의 가장 검증된 경로"라고 봤지만, 내가 의료영상에서 GAN 증강을 돌렸을 때 학습셋 AUC만 0.04 오르고 외부 검증에서는 도리어 0.02 떨어진 경험이 있다. 검증된 건 "학습 분포 내 성능 향상"이지 분포 바깥에서의 강건성은 아니다.
세 번째는 실시간성과 배포의 공백이다. Vision-TAA의 존재 이유는 차량 ECU나 노변 엣지에서 돌아가는 것인데, FLOPs·지연·메모리 같은 시스템 메트릭이 표에서 거의 빠져 있다. Dao 2024가 YOLOv8+LSTM+날씨센서를 엣지에서 돌렸다는 보고가 사실상 유일한 단서였고, THAT-Net의 2.8초 lead time도 어떤 하드웨어에서 측정한 값인지 본문에서 또렷이 잡히지 않았다. 여기서 좀 헷갈렸다 — 정확도 99.7%인 LLM 결합 모델(Liao 2024)이 과연 실시간 추론을 가정한 수치인지, 오프라인 사후 분석 정확도인지가 모호했다. 재현성 측면에서도 코드·체크포인트 공개 여부, 시드 민감도, 하이퍼파라미터 그리드의 범위가 서베이 안에서 거의 다뤄지지 않아 "어떤 줄을 믿고 따라가야 하는가"라는 실무 질문이 남았다.
후속 연구 방향은 또렷하게 보인다. (1) 도메인 통합 벤치마크 — DAD·CCD·A3D·DADA-2000을 같은 메트릭(특히 mTTA와 AUC-조기성 곡선) 위에 강제로 올린 표준 leaderboard가 필요하다. (2) 자기지도 사전훈련 — 사고 라벨이 희소한 본질을 GAN 증강 대신 대규모 비라벨 주행 영상에서 self-supervised로 흡수하는 방향이 더 정공법이다. (3) VLM·LLM 결합의 검증 프로토콜 — Liao 2024가 시도한 자연어 사고 설명은 매력적이지만, "그럴듯한 설명"과 "원인적 설명"을 분리할 평가 도구가 따로 필요하다. (4) V2X·LiDAR 융합 — 비전 단일 채널의 가림 문제는 결국 다른 모달이 풀어줘야 한다는 점에서, 서베이가 비전에 한정해 놓은 경계 바깥에 다음 주제가 있었다.
8. Take-aways
- 사후 검출에서 사전 예측(Anticipation) 으로 무게중심이 옮겨가는 변곡점을 147편으로 묶어낸 지도였다.
- 성능을 끌어올리는 세 축은 시공간 그래프 + 어텐션 + 멀티모달 융합이라는 점이 표 전체에서 일관되게 드러났다.
- THAT-Net의 0.48~2.8초 lead time이 "정확도와 조기성"을 동시에 잡은 현재의 상징적 지표로 남았다.
- 데이터 희소성은 GAN·GTACrash로 메워졌지만 도메인 갭과 실시간 배포 비용은 여전히 열린 숙제였다.
- 다음 질문은 단순하다 — 99%의 정확도가 새벽 3시 빗길에서도 같은 숫자일까.
'PaperReview' 카테고리의 다른 글
| Continual Object Detection A review of definitions, strategies, and challenges (0) | 2026.05.22 |
|---|---|
| Toward Visual Grounding: A Survey (0) | 2026.05.22 |
| Prompt-based Adaptation in Large-scale Vision Models: A Survey (0) | 2026.05.21 |
| Recognition in Terra Incognita (0) | 2026.05.20 |
| RF-DETR Object Detection vs YOLOv12 (0) | 2026.05.14 |