Toward Visual Grounding: A Survey - 세미나 자료
저자:
발행년도: 2026년
인용수: 0회
논문 링크: https://arxiv.org/abs/2412.20206
arXiv ID: 2412.20206
0. TL;DR
- Visual Grounding(REC/Phrase Grounding) 10년사를 한 흐름으로 엮고, 2021년 이후 등장한 grounded pre-training·GMLLM·generalized grounding 같은 신개념까지 담아낸 가장 넓은 범위의 survey다.
- 난립하던 **7개 실험 setting**(fully/weakly/semi/unsupervised/zero-shot/multi-task/generalized)을 엄밀히 재정의해 "불공정 비교" 문제를 정조준했다.
- RefCOCO/+/g가 거의 닳았다는 사실을 **ultimate performance prediction** 실험으로 수치화하고, 새 벤치마크로 갈아타라고 못을 박았다.
1. 왜 이 논문이 흥미로운가
공사장 CCTV 화면에 "안전모를 쓰지 않은 사람"이라는 문장 한 줄을 던지면, 모델이 화면 속 해당 인물들에게 박스를 그려 짚어낸다. 내가 이 task를 남에게 설명할 때 늘 드는 장면이다. Visual Grounding이 겨눈 능력은 사람이 손가락으로 가리키듯 언어로 영상 속 객체를 지목하는 것이다. 교통 단속, 산업 안전, 로봇 같은 응용 가치가 뚜렷한 task였고, 그래서 2021년 이후 논문 수가 가파르게 치솟았다 — Fig.2(a)는 2024년 한 해에만 800편에 육박하는 막대를 보였다.
문제는 이 분야의 직전 종합 survey가 Qiao et al.(2020)이라는 점이다. 5년 사이 패러다임은 LSTM·CNN에서 Transformer·VLP·GMLLM으로 통째로 갈아엎였는데, 그 공백을 메운 정리가 없었다. 이 survey의 후크는 단순 정리를 넘어선 곳에 있다. 같은 "fully supervised"라는 라벨 아래 단일 데이터셋 fine-tuning과 대규모 사전학습 전이가 뒤섞여 비교되는 현실을 지적하며, survey가 스스로 "표준화 도구" 역할을 자처했다.
2. Problem & Why now
문제는 폭증하는 grounding 문헌 속에서 setting 정의가 흐릿하고, 비교가 공정하지 않으며, 최근 5년을 담은 체계적 review 자체가 없다는 데 있었다. 분야가 빠르게 커진 만큼 비슷한 아이디어를 다른 이름으로 부르는 논문이 쌓였고, 독자는 어떤 결과를 같은 잣대로 놓고 봐야 하는지 판단할 근거를 잃었다.
첫 번째 한계는 setting 경계의 혼란이었다. 저자들은 여러 데이터셋으로 학습한 모델과 단일 데이터셋으로 fine-tuning한 모델이 같은 표에서 직접 맞붙는 사례, zero-shot 방법이 weakly supervised로 잘못 분류되는 사례, unsupervised와 weakly supervised의 정의가 섞여 쓰이는 사례를 짚었다. 학습에 쓴 데이터와 방식이 전혀 다른데도 한 줄에 나란히 놓이니, 숫자만 보면 누가 더 강한지 알 수 없었다.
두 번째 한계는 데이터셋의 정체였다. RefCOCO/+/g는 2016년 등장 이후 10년째 핵심 벤치마크 자리를 지켰지만, Fig.2(b)가 보여주듯 성능 곡선이 위쪽에 빽빽이 몰리며 포화에 다다랐다. LLM 시대가 요구하는 자유로운 질의나 multi-target·no-target 같은 시나리오를 RefCOCO/+/g는 담지 못했다.
세 번째 한계는 기존 review의 범위였다. Qiao et al.(2020)은 2020년 이전 기술에 초점이 맞춰져 surge stage를 통째로 비켜갔고, 다른 review들은 다루는 폭이 좁았다.
이 survey의 인사이트는 분명했다. setting을 정밀하게 재정의하고, 객체 1개·여러 개·0개를 모두 다루는 Generalized Visual Grounding을 미래지향적 표준으로 내세워야만 공정한 비교와 다음 단계의 발전이 가능하다는 것이다.
3. Background
이 survey를 따라가려면 몇 가지 사전지식이 필요하다. Referring Expression Comprehension(REC)은 한 문장으로 이미지 속 특정 영역을 찾는 task이고, 짧은 명사구를 다루면 Phrase Grounding(PG), 박스 대신 픽셀 마스크를 내놓으면 RES로 갈린다. 기술 쪽으로는 attention·Transformer·BERT·DETR·CLIP, 대규모 이미지-텍스트 사전학습인 VLP, LoRA·Prompt·Adapter 같은 PEFT, 그리고 Scaling Law가 배경에 깔린다. 평가의 기본 단위는 예측 박스와 정답 박스의 겹침 비율이 0.5를 넘는지 보는 IoU@0.5다.
개념 계보는 한 줄기로 이어졌다. 2014년 이전에는 referring expression generation(REG)이 주역이었고 grounding은 그 검증용 보조 task였다. 이후 REC와 PG가 Classical Visual Grounding으로 자리 잡았고, "한 문장 = 한 객체"라는 가정을 깨고 1개·여러 개·0개 객체를 모두 받아들이는 Generalized Visual Grounding(GVG/GREC), 그리고 Xie et al.의 Described Object Detection(DOD)으로 확장됐다.
발전은 세 단계로 나뉘었다. preliminary stage(~2014)는 REG 보조 단계였고, early stage(2014-2020)는 CNN-LSTM 위에서 two-stage와 one-stage 방법이 경쟁한 시기였다. 2021년부터의 surge stage에서 Transformer·VLP·GMLLM(Grounding Multimodal LLM)이 차례로 들어서며 패러다임이 완전히 바뀌었다.
평가지표 쪽에는 빈틈이 남아 있었다. Classical VG는 IoU@0.5로 정리되지만, GVG는 권위 있는 통일 기준이 없었다. 이 survey는 He et al.이 제안한 "Precision@(F1=1, IoU≥0.5)"와 no-target 정확도를 재는 "N-acc"를 소개하며, grounding을 박스 단위 이진 분류로 다시 보는 시각을 정리했다.
직전 SOTA와 본 survey의 위치를 비교하면 차이가 또렷하다.
| 항목 | Qiao et al. (2020) | 일반 grounding review | 본 survey |
|---|---|---|---|
| 핵심 아이디어 | 2020 이전 기술 정리 | 제한된 범위 요약 | 10년사 + 7 setting 정밀 재정의 |
| 커버 시기 | ~2020 (early stage까지) | 부분적 | preliminary~surge (GMLLM 포함) |
| 주요 기여 | 초기 기술 분류 | 단편적 요약 | setting 표준화·dataset 정리·performance prediction |
| 한계 | surge stage 누락 | 체계성 부족 | 분량·최신 추적의 지속 부담 |
4. Method
이 survey가 택한 골격은 모델 한 개가 아니라 분류 틀이었다. Fig.4가 그 골격을 한 장에 압축했는데, §1 발전사 → §2 배경·정의·지표 → §3 7개 setting별 방법 review → §4 도전과 미래방향 → §5 결론으로 흐르고, 데이터셋·응용·심화 주제는 Appendix A2~A4로 떼어냈다. 입력은 지난 10년간 800편에 육박하는 grounding 문헌 더미였고, 출력은 "공정 비교가 가능한 표준 좌표계"였다. 왜 이렇게 짰나. 분야의 병은 모델 부족이 아니라 비교 불능이었기 때문이다.

출처: arXiv (OG Image)
모듈 A: 7-Setting 분류 체계
첫 번째 축은 학습에 쓴 데이터의 종류로 setting을 가르는 것이었다. Fully supervised는 (이미지, 질의 텍스트, 정답 박스) 삼중쌍으로 학습하고, weakly supervised는 박스를 빼고 이미지-텍스트 쌍만 쓴다. Semi-supervised는 완전한 삼중쌍 일부와 이미지-only 데이터를 섞고, unsupervised는 텍스트도 박스도 없는 이미지만으로 보조 detector에 기댄다. Zero-shot은 base class로 학습해 novel class에서 시험하며, multi-task는 REG·RES와 함께 학습하고, generalized는 1개·여러 개·0개 객체를 모두 받는다.
핵심은 정의를 칼같이 그은 데 있었다. 저자들은 unsupervised가 이미지만 쓰는 반면 weakly supervised는 텍스트를 쓴다는 한 줄 차이를 명문화했고, zero-shot이 weakly supervised로 오분류되던 관행을 끊었다. 정의가 흐릿하니 표가 거짓말을 했다. 그 표를 바로잡는 게 모듈 A였다.
위 그림은 fully·weakly·semi·unsupervised·zero-shot·multi-task 여섯 갈래가 각각 어떤 데이터를 쥐고 학습하는지를 한 줄로 보여주었다. (a)는 텍스트와 박스가 모두 붙은 라벨 데이터, (b)는 박스 없는 텍스트만, (d)는 텍스트조차 없는 이미지만 쓴다는 점이 좌우로 대비됐다. 같은 "supervised"라는 말이 칸마다 전혀 다른 입력을 가리켰음을 이 그림이 못 박았다.
모듈 B: Fully Supervised 기술 로드맵
두 번째 축은 시간이었다. Fig.5는 fully supervised grounding의 surge stage를 다섯 갈래 기술 경로로 갈랐다. CNN-based(2014~)가 출발점이었고, 2021년 Transformer가 들어오며 Transformer-based 경로가 열렸다. 2022년부터는 CLIP 같은 VLP-based transfer가, 그 옆으로 2020년 MDETR·GLIP이 연 grounding-oriented pre-training이, 2023년에는 GMLLM(Grounding Multimodal LLM)이 차례로 합류했다.
연표가 말한 이야기는 단순했다. 패러다임은 점진적으로 갈아엎인 게 아니라 2021년을 기점으로 한 번에 쏟아졌다. LSTM·CNN이 한물갔고, Transformer가 그 자리를 메웠다.
이 그림에서 preliminary(2014)·early(2014-2020)·surge(2021-) 세 구간의 밀도 차이를 확인할 수 있었다. early 구간은 TransVG·ReSC 정도가 듬성듬성 찍혀 있었지만, surge 구간은 20232025년 사이 Shikra·Ferret·OneRef·G-DINO 같은 이름이 빽빽하게 겹쳐 찍혔다. 우상향 화살표의 기울기가 후반부에 가팔라지면서 연구 가속이 시각적으로 드러났다.
모듈 C: 5대 Framework 아키텍처
세 번째 축은 구조였다. Fig.9는 사전학습 모델 시대의 grounding 골격을 다섯 형태로 정리했다. (a) 2+1 구조는 비전·언어 인코더 두 개에 fusion 인코더 하나를 얹은 TransVG 형태, (b) 2+2 구조는 query anchor를 쓰는 MDETR 형태, (c) two-encoder 구조는 fusion 모듈을 줄인 TransVG++ 형태였다. (d) one-tower 구조는 OneRef처럼 modality-shared 공간 하나로 인코딩을 합쳐 중복 파라미터를 걷어냈고, (e) GMLLM 구조는 비전 인코더 출력을 LLM의 토큰 공간으로 밀어 넣어 grounding을 자기회귀 언어 task로 풀었다.
진화 방향은 한쪽으로 쏠렸다. fusion 모듈을 떼고, modality-shared 공간으로 인코딩을 통합하는 쪽이었다. 모듈이 무거우면 학습비가 폭증했다. one-tower는 그 군더더기를 깎아 효율과 성능을 같이 잡으려는 시도였다.
위 그림에서 (a)→(d)로 갈수록 박스로 그려진 모듈 수가 줄어드는 흐름이 한눈에 잡혔다. (a) 2+1은 인코더 세 덩어리가 쌓여 있지만, (d) one-tower는 단일 블록으로 압축됐다. (e) GMLLM은 LLM 본체가 fusion·디코딩을 통째로 흡수해, 별도 fusion 디코더가 사라진 점이 두드러졌다.
핵심 정식화부터 보면, 이 survey는 grounding 모델 $\mathcal{M}_g$의 입출력을 한 줄로 묶었다.
$$\hat{B} = \mathcal{M}g(\mathcal{I}, \mathcal{T}), \qquad \hat{B} = {\hat{B}_i}{i=0}^{k}$$
이 식이 의미하는 바는 grounding을 "객체 개수 $k$에 열린 함수"로 다시 정의한 데 있었다. 이미지 $\mathcal{I}$와 텍스트 $\mathcal{T}$를 받아 박스 집합 $\hat{B}$를 내놓는데, $k=1$이면 전통적 REC, $k=0$이면 빈 집합 곧 no-target이 된다. "한 문장 = 한 객체"라는 낡은 가정을 수식 레벨에서 푼 것이다.
평가 쪽에서는 generalized grounding을 위해 박스 단위 이진 분류로 갈아탔다. He et al.이 제안한 지표를 survey가 이렇게 정리했다.
$$F1 = \frac{2 \cdot TP}{2 \cdot TP + FN + FP}, \qquad \text{N-acc} = \frac{TP}{TP + FN}$$
여기서 $TP$는 IoU≥0.5로 맞힌 박스, $FP$·$FN$은 각각 헛짚음과 놓침이다. Precision@(F1=1, IoU≥0.5)는 한 샘플의 F1이 정확히 1.0일 때만 성공으로 치는 빡빡한 기준이었다. N-acc는 박스를 하나도 내놓지 말아야 할 no-target 상황에서 모델이 침묵을 지켰는지를 따로 쟀다. classical VG의 단일 IoU@0.5만으로는 "여러 개·0개" 시나리오를 채점할 수 없으니 분류 지표를 끌어온 것이다.
학습 전략은 setting마다 갈렸다. fully supervised 쪽은 박스 좌표를 직접 회귀하거나, Pix2seq 계열처럼 좌표를 이산 토큰으로 바꿔 자기회귀로 생성했다. weakly supervised 쪽은 박스 정답이 없으니 MIL(Multiple Instance Learning) 틀 안에서 region-text 랭킹 문제로 우회했고, 문장 재구성 손실·InfoNCE 대조 손실로 감독 신호를 만들었다. GMLLM은 좌표를 텍스트 어휘로 취급해 LLM의 언어 모델링 손실에 그대로 얹었다.
flowchart LR
I[이미지 I] --> M[grounding 모델 M_g]
T[질의 텍스트 T] --> M
M --> K{타깃 개수 k}
K -->|k=1| C[Classical VG: 박스 1개]
K -->|k>1| G[Generalized VG: 박스 다수]
K -->|k=0| N[No-target: 빈 집합]
5. Experiments
셋업은 단출했다. 핵심 벤치마크는 10년째 자리를 지킨 RefCOCO/+/g였고, 초기 phrase grounding 평가용으로 ReferItGame과 Flickr30k Entities가 따라붙었다. 메트릭은 예측 박스와 정답 박스의 IoU가 0.5를 넘으면 정답으로 치는 IoU@0.5였다. weakly supervised 계열은 박스 정답이 없어 MIL 기반 region-text 랭킹 정확도로 따로 쟀다.
메인 결과는 Table 2와 Appendix Table A1에 담겼는데, 저자들은 fully supervised 한 칸을 네 개 하위 setting으로 쪼개 비교를 강제했다. (a) unimodal close-set detector 기반 단일 데이터셋 fine-tuning, (b) self-supervised VLP 기반 fine-tuning, (c) 여러 데이터셋을 섞은 중간 pre-training, (d) GMLLM fine-tuning이다. 숫자가 그 분할의 이유를 증명했다. 2021년 TransVG는 setting (a)에서 RefCOCO val 81.02를 찍었지만, setting (c)의 OneRef는 같은 val에서 93.21까지 올라갔다. 12점 차이의 대부분은 모델 구조가 아니라 중간 pre-training에 쏟아부은 데이터에서 나왔다.
위 그래프의 (a) 패널은 2014년부터 2025년까지 연도별 논문 수가 800편 가까이 치솟는 막대를 보였고, (b) 패널은 같은 기간 RefCOCO testA 정확도 점들이 60%대에서 95% 부근으로 올라붙다 위쪽에 빽빽이 뭉치는 모습을 보였다. 곡선이 천장에 닿으며 기울기가 눕는 구간이 또렷했다. 양적 폭증과 질적 포화가 한 화면에서 동시에 읽혔다.
Ablation에 해당하는 분석은 이 네 setting 분할 자체였다. setting (d)의 GMLLM을 보면 CogVLM-17B가 RefCOCO val 92.76을 기록했는데, 170억 파라미터를 쓰고도 5억 파라미터급 OneRef의 setting (c) 성적을 못 넘었다. 덩치가 답이 아니었다. 컴포넌트별로 기여를 갈라보니 성능을 끌어올린 진짜 레버는 중간 pre-training 데이터의 양과 질이었다. GMLLM의 강점은 RefCOCO 점수보다 open-world 질의 대응에 있었다.
가장 날카로운 실험은 Ultimate Performance Prediction이었다. 저자들은 OneRef를 train·val·test 전체 샘플로 다시 학습시키고 self-paced curriculum learning을 걸어 RefCOCO/+/g의 성능 상한을 추정했다. 결과는 OneRef-B 기준 RefCOCO val 98.69, testA 99.08, testB 98.57이었다. 현재 SOTA와의 격차는 약 5~10%로 좁혀졌다. 100%가 아니었다. RefCOCO/+/g 자체에 깔린 라벨 오류와 난해 샘플 탓에 만점은 구조적으로 불가능했고, 저자들은 데이터 누수를 의도적으로 끌어쓴 이 실험으로 "이 벤치마크는 거의 닳았다"는 메시지를 던졌다. 새 데이터셋으로 갈아타라는 신호였다.
6. 직관과 시각 자료
이 survey가 task를 설명하는 방식은 정의문보다 그림 한 장이 빨랐다. 그라운딩이 무엇인지 묻는다면, 답은 "사람이 손가락으로 가리키듯 언어로 영상 속 객체를 짚는 일"이었다.
위 이미지는 "a man in a white hat and red jacket cross-country skiing"이라는 referring expression이 들어가면, grounding 모델이 스키 타는 여러 사람 중 흰 모자에 빨간 재킷을 입은 한 명에게만 박스를 친다는 점을 보여주었다. 입력은 이미지와 자유 형식 문장 두 가지, 출력은 좌표 박스 하나였다. 분류 라벨이 아니라 문장이 질의라는 점이 객체 탐지와 갈리는 지점이었다. 모듈 C의 $\hat{B} = \mathcal{M}_g(\mathcal{I}, \mathcal{T})$가 바로 이 그림의 동작을 식으로 옮긴 것이다.
전통 VG의 한계는 "한 문장이 정확히 한 객체를 가리킨다"는 가정에 있었다. 현실은 그렇지 않다. 그래서 survey는 generalized grounding을 미래 표준으로 끌어올렸다.
이 그림에서 generalized grounding이 세 경우를 모두 끌어안는다는 점을 확인할 수 있었다. (a) "흰 셔츠로 달리는 금발 남성"은 박스 하나, (b) "프리스비를 잡으려 뛰는 세 사람"은 박스 여럿, (c) "왼쪽의 흰 셔츠 남성"은 화면에 그런 사람이 없어 빈 집합(∅)을 내놓았다. 공사장에서 "안전모 미착용 인원"을 질의하면 0명일 수도 여러 명일 수도 있는데, 전통 REC는 무조건 박스 하나를 토해내 헛짚었다. $k=0,1,2,\dots$로 열린 출력 정의와 N-acc 지표가 왜 필요했는지를 이 그림이 직관적으로 설명했다.
7. Critical View
이 survey의 가장 야심 찬 실험인 Ultimate Performance Prediction은 동시에 가장 미심쩍은 대목이었다. 저자들은 train·val·test 전체를 학습에 넣고 self-paced curriculum learning을 걸어 RefCOCO/+/g의 상한을 98% 부근으로 추정했는데, 이건 데이터 누수를 일부러 켜놓은 측정이다. 솔직히 나는 이 숫자를 처음 봤을 때 "그래서 이게 상한이 맞나"라는 의문이 먼저 들었다.
전체 데이터를 외운 모델의 성적은 일반화 성능의 상한이라기보다 암기 용량의 하한에 가깝다. 저자는 이 수치를 "벤치마크가 닳았다"는 근거로 썼지만, 같은 실험을 다른 모델이나 다른 curriculum으로 돌렸을 때 똑같은 98%가 재현될지는 이 발췌본만으로 확인할 길이 없었다.
두 번째로 걸리는 지점은 survey가 내세운 간판과 실제 산출물 사이의 간극이었다. 이 논문은 "표준화 도구"를 자처하며 7개 setting을 칼같이 재정의했지만, 정작 자신이 미래 표준으로 끌어올린 Generalized Visual Grounding의 채점법은 He et al.의 N-acc와 Precision@(F1=1)을 "소개"하는 데 그쳤다. 권위 있는 통일 기준이 없다는 사실을 인정하면서도, survey 자신이 그 통일안을 확정하지는 못했다. setting은 표준화했는데 GVG 채점 기준은 표준화하지 못한 셈이라, 미래 표준이라는 GVG를 두고 다음 논문들은 여전히 제각각의 지표로 경쟁할 여지가 남았다.
세 번째는 survey라는 형식 자체의 한계였다. 연 800편이 쏟아지는 분야에서 저자들도 최신 추적이 어렵다고 자인했고, 결국 갱신을 GitHub repo에 위임했다. 종이 위의 본문은 출판 시점에 이미 한 박자 늦는 구조다. 덧붙여 이번 리뷰가 받은 발췌는 fully supervised 중심이었고, zero-shot·semi·unsupervised·multi-task setting의 §III 후반부와 응용·데이터셋 Appendix는 손에 들어오지 않았다. 7개 setting을 균형 있게 재정의했다는 주장이 나머지 setting에서도 똑같이 단단한지는, 여기서 좀 판단을 유보할 수밖에 없었다.
후속 연구가 풀어야 할 질문은 survey가 남긴 빈칸과 그대로 겹쳤다. RefCOCO/+/g를 대체할, multi-target·no-target·자유 질의를 품은 새 벤치마크를 누가 먼저 권위 있게 세우느냐가 첫 과제였다. GVG의 통일 평가 scheme을 확정하는 일, giga-pixel grounding처럼 해상도를 키운 시나리오, GMLLM을 다회차 대화 속 grounding으로 확장하는 방향이 그 뒤를 이었다. survey가 grounding을 "$k$에 열린 함수"로 다시 정의한 만큼, 이제 그 정의를 공정하게 채점할 자가 필요했다.
8. Take-aways
- Visual Grounding은 preliminary→early→surge 3단계를 거치며 CNN-LSTM에서 Transformer·VLP·GMLLM으로 패러다임을 통째로 갈아치웠다.
- 이 survey의 진짜 기여는 새 모델이 아니라 7개 setting의 정밀 재정의 — "불공정 비교"를 끝내려는 표준 인프라였다.
- GVG(객체 1개·여러 개·0개)는 "한 문장=한 객체" 가정을 깨고 grounding을 $k$에 열린 함수로 다시 썼다.
- Performance prediction이 RefCOCO/+/g 상한을 98%로 못박으며 보낸 메시지는 단 하나, "새 벤치마크를 만들라"였다.
- 공사장 CCTV에 "안전모 미착용 인원"을 묻던 그 한 줄을, 다음 벤치마크는 0명일 때도 틀리지 않고 받아낼 수 있을까.