PaperReview

Prompt-based Adaptation in Large-scale Vision Models: A Survey

Black940514 2026. 5. 21. 19:31

Prompt-based Adaptation in Large-scale Vision Models: A Survey - 세미나 자료

저자: Xiao, Xi, Zhang, Yunbei, Zhao, Lin 외 12명
발행년도: 2025년
인용수: None회
논문 링크: https://arxiv.org/abs/2510.13219
arXiv ID: 2510.13219




0. TL;DR


📌 핵심 요약
  • Visual Prompting(VP, 픽셀 레벨)과 Visual Prompt Tuning(VPT, 토큰 레벨)을 **Prompt-based Adaptation(PA)** 라는 단일 프레임워크로 묶은 첫 vision 전용 서베이다.
  • **Injection granularity**(어디에 주입하는가, 픽셀 vs 토큰)와 **Generation mechanism**(Fixed/Learnable/Generated)이라는 2축 taxonomy로 25편 이상의 대표 연구를 좌표화했다.
  • Segmentation·복원·의료·3D·VLM·TTA·신뢰성까지 PA의 적용 지형을 deployment 관점에서 정리하며, 0.5% 미만 파라미터만 학습해도 SOTA에 근접한다는 점을 보였다.


1. 왜 이 논문이 흥미로운가


ViT 시대 PEFT(parameter-efficient fine-tuning) 논문을 읽다 보면 똑같은 그림이 VP라는 이름으로도, VPT라는 이름으로도 등장한다. 어떤 논문은 강아지 사진 옆에 컬러 패치를 붙이고, 어떤 논문은 transformer block 입력에 학습 토큰을 끼워 넣는데 둘 다 "visual prompt"라 부른다. 내가 작년에 의료 segmentation 프로젝트에 VPT를 적용하려다 VP 논문 코드를 잘못 클론한 적도 있었다. Xiao 외(2025)는 이 혼란이 단순한 명명의 문제가 아니라 prompt가 작용하는 위치가 픽셀이냐 토큰이냐가 근본적으로 다른 설계 결정을 가리고 있다고 도발적으로 짚었다.


후크는 단순했다. 0.5% 미만 파라미터만 학습해도 full fine-tuning에 근접하는 효율을 가지면서, 의료 영상부터 위성·hyperspectral tracking·VLM까지 동일한 레시피로 옮겨갈 수 있는 기법군을 "어디에 찔러 넣을 것인가 × 어떻게 만들 것인가"라는 두 질문으로 환원했다. NLP에서 출발한 prompt 개념이 vision에서 first-principles로 재정립되는 좌표계를 제시한 점에서 읽을 가치가 있다.




2. Problem & Why now


Large-scale vision model이 수억 파라미터를 넘어서면서 full fine-tuning은 계산·저장 비용 폭증과 pretrained knowledge 손상이라는 이중 부담을 안게 됐다. PEFT 라인 중에서도 Prompt-based Adaptation(PA) 은 backbone을 동결한 채 입력 또는 토큰 시퀀스에 가벼운 신호만 주입해 downstream을 적응시키는 접근으로 두각을 드러냈다. 문제는 그 정의가 연구자마다 제각각이라는 점에 있었다.


기존 prompt 서베이는 대체로 vision-language·multimodal 진영을 다뤘다. Wu 외(2024c)는 MLLM의 visual instruction에 집중했고, Gu 외(2023)는 CLIP·Flamingo·Stable Diffusion의 텍스트 측 프롬프트 엔지니어링을 정리했으며, Lei 외(2024)는 AIGC 관점의 VLM prompt를 분류했다. 모두 vision backbone 내부에서 일어나는 PA 메커니즘을 정면으로 다루지 않은 공통 한계가 있었다.


두 번째 한계는 용어 자체에 있었다. VP와 VPT가 혼용되면서 prompt가 픽셀 공간에서 작동하는지 token 시퀀스에 prepend되는지, 사람이 그려 넣은 box인지 학습된 벡터인지, 입력별로 생성되는지 같은 핵심 구분이 흐려졌다. 그 결과 같은 이름 아래 학습 파라미터가 0개(SAM의 box prompt)부터 hypernetwork 기반 생성기까지 천차만별인 연구가 묶여 있었다.


세 번째 한계는 deployment 관점의 통합 부재였다. Few-shot·TTA(test-time adaptation)·continual·black-box·federated 같은 constrained learning paradigm에서 PA가 어떻게 변형되는지, 의료·원격탐사·로보틱스 같은 도메인 적용에서 어떤 sub-type이 적합한지가 한 자리에 정리된 적이 없었다.


저자들이 제시한 핵심 인사이트는 단순하다. "prompt가 어디에서 작동하는가(where it acts)"와 "어떻게 얻어지는가(how it is obtained)"를 분리하면, 흩어져 있던 PA 연구가 2×3 격자 안에 깔끔히 들어맞는다고 주장했다.




3. Background


선행 지식부터 정렬하면 ViT(Dosovitskiy 외, 2021)와 Swin(Liu 외, 2021)이 이미지를 patch 토큰 시퀀스로 변환한 뒤 frozen encoder가 표현을 뽑고 head가 예측을 만드는 "pretrain-then-finetune" 패러다임이 출발점이다. PEFT는 이 구도에서 backbone을 그대로 두고 일부 모듈만 학습하는 흐름을 가리키며, SAM(Kirillov 외, 2023)의 point·box·mask interactive prompting이 vision 측 prompt의 직관적 원형을 제공했다.


이론적 뿌리는 Tsai 외(2020)의 Model Reprogramming에 닿아 있다. 픽셀 공간 변환을 학습 가능한 input reprogramming으로 정식화해, black-box pretrained 모델을 다른 도메인에 재사용할 수 있음을 보였고, 이후 VP·VPT 라인이 모두 이 frame을 계승했다.


계보를 따라가면 두 갈래가 갈라진다. 한쪽은 Bahng 외(2022)의 VP로, 입력 이미지에 학습 가능한 픽셀 패치를 덧대 backbone을 재프로그래밍했다. 다른 쪽은 Jia 외(2022)의 VPT로, ViT의 token 시퀀스 앞에 학습 토큰을 prepend(Shallow)하거나 매 layer마다 끼워 넣는(Deep) 방식을 제안했다. 이후 Bar 외(2022)의 inpainting 기반 VPI, Oh 외(2023)의 BlackVIP가 zeroth-order optimization으로 black-box 적응을 시도했고, 도메인 특화에서는 의료 segmentation의 FVP, 위성 영상의 RSPrompter·DVPT, hyperspectral의 PHTrack·SPTrack 같은 갈래가 분기했다.


이 논문이 직전 서베이와 갈라지는 지점은 vision backbone 내부에 초점을 맞추고, injection granularity × generation mechanism이라는 이중 축으로 분류했다는 데 있다. Ye 외(2025)가 픽셀 VP의 foundation 모델 진화를 추적했지만 token-level 주입 위치를 분리하지 않았던 반면, 이번 서베이는 constrained paradigm과 도메인 응용, foundational analysis까지 같은 좌표계 위에 얹었다.


서베이 핵심 범위 Taxonomy 축 한계
Wu 외 (2024c) MLLM의 visual instruction instruction / generation / reasoning vision encoder 내부 PA 미포함
Gu 외 (2023) CLIP·Flamingo·SD 텍스트 측 prompt VL pipeline 중심 vision backbone PA 부재
Lei 외 (2024) AIGC·VLM prompt learning generative model 중심 injection granularity 미분리
Ye 외 (2025) Pixel→foundation VP 진화 시계열적 진화 token-level 분리 없음
Xiao 외 (2025) Vision backbone 전용 PA injection granularity × generation mechanism


4. Method


PA의 전체 파이프라인은 한 줄로 요약됐다. 이미지 $\mathbf{x} \in \mathbb{R}^{H\times W\times C}$가 들어오면 frozen encoder $f_\phi$가 $Z^{(0)} \in \mathbb{R}^{T\times d}$로 임베딩하고 $L$개 블록을 쌓아 $Z^{(L)}$을 뽑은 뒤 task head $h_\omega$가 $\hat{\mathbf{y}} = h_\omega(Z^{(L)})$을 만든다. PA의 개입 지점은 둘이었다. 픽셀 단계에서 $\mathbf{x}$를 $\tilde{\mathbf{x}} = u(\mathbf{x};\theta)$로 재프로그래밍하는 VP 경로, 그리고 토큰 시퀀스에 학습 토큰 $P^{(\ell)}$을 끼워 넣는 VPT 경로다. backbone $\phi$는 동결, 학습은 $\theta$(또는 ${P^{(\ell)}}$)와 선택적으로 $\omega$에만 흘렀다.


flowchart LR
  X[Image x] -->|VP: u x;θ| Xp[x̃]
  Xp --> PE[Patch embed]
  PE -->|VPT: prepend P^ℓ| BLK[Frozen blocks L1..LN]
  BLK --> H[Trainable head h_ω]
  H --> Y[ŷ]

이미지를 패치 토큰으로 자르기 전에 픽셀에 프롬프트를 더하는 VP와, 토큰 시퀀스 사이에 학습 토큰을 꽂아 넣는 VPT가 동일한 frozen backbone 위에서 어떻게 갈라지는지 보여주는 도식


위 그림에서 (a) 기존 transfer learning이 head-only·partial·backbone-oriented까지 풀어 미세조정하는 반면, (b) VPT는 backbone을 얼린 채 prompt token만 학습하고 (c) VP는 입력 픽셀 자체를 재구성한다는 점을 확인할 수 있었다. 학습 신호가 흐르는 위치가 backbone 내부 가중치냐, 토큰 시퀀스 사이 좁은 슬롯이냐, 입력 픽셀 패치냐로 갈라지는 구조다. 저자들은 (b)와 (c)를 묶어 PA로 보되 작용 위치(픽셀 vs 토큰)는 분리해서 분류해야 한다고 못 박았다.


모듈 A: VP — Input-space Prompting


VP의 가장 단순한 정체성 수식은 Bahng 외(2022)에서 출발했다.


$$\tilde{\mathbf{x}} = u(\mathbf{x};\theta), \qquad \hat{\mathbf{y}} = h_\omega!\big(f_\phi(\tilde{\mathbf{x}})\big)$$


backbone에 손대지 않은 채 입력 자체를 재프로그래밍하는 함수 $u(\cdot;\theta)$가 모든 VP의 공통 골격이다. 차이는 $\theta$를 어떻게 얻는가에 있었다. VP-Fixed는 $\theta$가 없다. SAM(Kirillov 외, 2023)의 point·box·mask가 대표적이고, VLM용 텍스트·박스 힌트도 사람이 정하는 그대로 모델에 흘러갔다. 학습 비용은 0이지만 능력 상한은 backbone의 zero-shot 능력에 묶였다.


VP-Learnable은 그 한계를 푼다. 픽셀 공간에 overlay·border padding·frequency cue를 얹어 다음을 최소화했다.


$$\min_{\theta,\omega};\mathbb{E}_{(\mathbf{x},\mathbf{y})}!\Big[\mathcal{L}\big(h_\omega(f_\phi(u(\mathbf{x};\theta))),\mathbf{y}\big)\Big] + \lambda,\mathcal{R}(\theta)$$


이 라인에서 의료 segmentation의 FVP·DDFP는 주파수 도메인 프롬프트로 unseen domain 정규화를, OT-VP는 Optimal Transport 거리로 source-free·test-time 적응을, RSPrompter·PHTrack·SPTrack은 위성·hyperspectral 영역에서 spectral cue를 입력 단에서 주입했다. 백본은 그대로다. 손은 입력에만 닿았다.


VP-Generated는 한 단계 더 갔다. 소형 생성기 $g_\psi$가 이미지마다 다른 프롬프트를 합성해 instance-adaptive 패턴을 만든다.


$$\tilde{\mathbf{x}} = u(\mathbf{x},g_\psi(\mathbf{x})) = (1-\mathbf{m})\odot\mathbf{x} + \mathbf{m}\odot \mathbf{r}_\psi(\mathbf{x})$$


여기서 $\mathbf{m}$은 spatial mask, $\mathbf{r}\psi$는 합성된 residual이었다. Bar 외(2022)의 VPI는 inpainting 패러다임으로 같은 구조를 다시 풀어, masked 입력 $(\mathbf{x},\mathbf{m})$에서 discrete visual token $\hat{z}_i = \arg\max{z_i} p_\theta(z_i\mid \mathbf{x},\mathbf{m})$을 예측한 뒤 디코딩했다. black-box 환경에서는 BlackVIP(Oh 외, 2023)가 coordinator 네트워크로 입력 의존 프롬프트를 만들되, 내부 gradient에 접근할 수 없으니 zeroth-order로 학습 신호를 추정했다.


$$\widehat{\nabla}_\theta \mathcal{L} = \frac{\mathcal{L}(\theta+\alpha\Delta) - \mathcal{L}(\theta-\alpha\Delta)}{2\alpha},\Delta, \quad \Delta \sim {\pm 1}^{\dim(\theta)}$$


이 추정식이 의미하는 바는 분명했다. 모델 가중치에 손댈 수 없고 API 쿼리만 가능한 상황에서도, 두 번의 forward pass만으로 prompt 파라미터 $\theta$를 업데이트할 수 있다는 신호였다. gradient가 없는 곳에서 prompt가 살아남는 길이다.


모듈 B: VPT — Internal Token-space Prompting


VPT는 작용 위치를 transformer 내부로 옮겼다. ViT의 patch embedding이 $X^{(0)} = [\mathbf{x}_{\text{cls}}^{(0)}; \mathbf{x}_1^{(0)};\ldots;\mathbf{x}_N^{(0)}]$을 만들면, VPT-Shallow는 첫 layer에만 $p$개 학습 토큰 $P^{(0)} \in \mathbb{R}^{p\times d}$를 prepend했다.


$$Z^{(0)} = [\mathbf{x}_{\text{cls}}^{(0)};, P^{(0)};, \mathbf{x}_1^{(0)};\ldots;\mathbf{x}_N^{(0)}],\quad Z^{(\ell+1)} = \text{Block}_\ell(Z^{(\ell)})$$


VPT-Deep는 매 layer마다 layer-specific $P^{(\ell)}$을 새로 끼워 넣어 깊이별 재조정을 허용했다.


$$Z_{\text{in}}^{(\ell)} = [\mathbf{x}{\text{cls}}^{(\ell)};, P^{(\ell)};, \mathbf{x}_1^{(\ell)};\ldots;\mathbf{x}_N^{(\ell)}],\quad Z^{(\ell+1)} = \text{Block}_\ell(Z{\text{in}}^{(\ell)})$$


학습 목적은 $\min_{{P^{(\ell)}},\omega}\mathbb{E}[\mathcal{L}(h_\omega(\text{VPT}_{{P^{(\ell)}}}(f_\phi,\mathbf{x})),\mathbf{y})]$로 $\phi$ frozen이었다. 보통 학습 파라미터는 전체의 0.5% 미만이었다.


이 형식에서 변형이 우후죽순 갈라졌다. LPT(Dong 외, 2023)는 long-tailed 분포를 다루려 class-aware 토큰과 re-weighted 스케줄을 더했다. $\text{E}^2\text{VPT}$(Han 외, 2023)는 KV pair에 prompt를 주입한 뒤 pruning으로 FLOPs를 깎아 shallow에서 deep으로 가는 확장 비용을 잡았다. $\text{SA}^2\text{VP}$(Pei 외, 2024)는 2D 공간 격자로 토큰을 정렬해 cross-attention으로 깊이를 가로질러 적응시켰고, dense prediction에서 추가 토큰 몇 개로 성능을 끌어올렸다. VFPT(Zeng 외, 2024b)는 Fourier 성분을 토큰에 섞어 distribution shift 아래 안정성을, SPT(Wang 외, 2024b)는 토큰 길이·위치·초기화에 대한 휴리스틱으로 standard VPT를 일관되게 끌어올렸다.


VPT-Shallow는 첫 layer에만 프롬프트 토큰을 꽂고, VPT-Deep은 모든 transformer layer에 layer-wise 토큰을 끼우며, VPT-Generated는 작은 생성기가 인스턴스별 토큰을 합성해 삽입하는 세 변종의 구조 비교


위 그림에서 토큰 주입 깊이가 capacity-비용 trade-off의 본질을 가르는 축임을 확인할 수 있었다. 왼쪽 Shallow는 첫 layer에만 주황색 prompt slot이 있고 나머지 layer는 patch token만 흐른다. 가운데 Deep은 매 layer에 새 prompt token이 끼워 들어가 깊이별로 별도의 학습 자유도를 허용했다. 오른쪽 Generated는 별도 generator 박스가 입력 의존 토큰을 만들어 각 layer 입구에 흘려보냈다. 같은 frozen backbone이지만 학습되는 곳(불꽃 아이콘)이 head와 prompt slot으로만 국한됐다는 점이 세 변종 모두에 공통됐다.


VPT-Generated 갈래는 인스턴스 적응성을 한 단계 더 밀었다. DVPT(He 외, 2025a)는 의료 영상에서 bottleneck + cross-attention으로 샘플별 쿼리를 만들어 토큰을 합성했고, ViaPT(Xiao 외, 2025c)는 intra-class 다양성을 살리는 instance-aware 토큰을, LSPT(Mo 외, 2024)는 earlier block의 정보를 게이팅해 self-supervised ViT용 long-term 공간 토큰을 만들었다. PGN(Loedeman 외, 2024)은 latent·token space에서 작동하는 hypernetwork형 생성기로 per-sample prompt를 빚었다. 정확도-효율은 주입 깊이와 토큰 수가 좌우했다.


학습 전략과 효율의 비대칭


PA의 학습 비용은 비대칭이었다. backbone $\phi$는 frozen이라 parameter gradient와 optimizer state는 prompt 모듈과 head에만 할당됐다. VPT는 보통 전체 파라미터의 0.5% 미만만 업데이트했고, VP-Fixed는 prompt-side 학습 파라미터 자체가 0이었다. 그런데 backprop은 여전히 backbone 전체를 통과해 token gradient를 계산해야 했다. 그래서 activation memory는 거의 그대로 남았다.


저자들은 이 지점을 도발적으로 지적했다. 파라미터 sparsity만으로는 commodity GPU에서의 진짜 효율을 보장할 수 없다는 것이다. Kim 외(2023b)·Simoulin 외(2024)의 MEFT 같은 보완 라인이 적응적 토큰 선택으로 activation memory를 떨궈야 비로소 그림이 완성됐다. 파라미터는 작아도 메모리는 안 작았다. 맞다.




5. Experiments


서베이 특성상 단일 벤치마크 수치보다 횡단면 비교가 메인 결과였다. 대표 셋업은 ViT-B/16·Swin·ConvNeXt-B backbone에 ImageNet-21k 사전학습, downstream으로 VTAB-1k 19개 태스크, FGVC, CIFAR-100-C, WILDS, 의료(CT/MRI/병리), 원격탐사(satellite/hyperspectral), 3D point cloud(ScanObjectNN/ModelNet40), continual panoptic seg가 잡혔다. 기준선은 full fine-tuning과 linear probing 사이에 모든 PEFT 라인이 끼었다.


저자들의 Table 1은 VP·VPT 대표 25편을 venue·연도·sub-type·prompt space로 좌표화했다. VP 측에서는 VPI(NeurIPS'22, Generated), SAM(CVPR'23, Fixed), DAM-VP(CVPR'23, Generated), BayesVRP(NeurIPS'24, Learnable), LoR-VP(ICLR'25, Learnable)가, VPT 측에서는 VPT(ECCV'22), $\text{E}^2$VPT(ICCV'23), $\text{SA}^2$VP(AAAI'24), LSPT(AAAI'24), VFPT(NeurIPS'24), DA-VPT(CVPR'25), PAE(ICLR'26)가 잡혔다. Learnable이 다수, Generated가 인스턴스 적응성 라인에서 부상, Fixed는 SAM·SAA+ 같은 segmentation·이상탐지 영역에 한정됐다.


VPT의 정량 결과 중 가장 자주 인용되는 건 Han 외(2024)의 VTAB-1k 19-task 분석이었다. VPT는 (1) downstream 태스크가 pretraining 목적과 실질적으로 다르거나(예: counting·distance 같은 spatial reasoning) (2) source-target 데이터 분포가 가깝게 정렬된 자연영상 셋업에서 FT를 능가했다. 저자들은 task-data 유사성 격자 네 칸 중 세 칸에서 VPT가 우세했다고 정리했다. 반대로 downstream 데이터가 충분히 많아지면 우위가 좁아져 full FT가 다시 선호됐다.


응용별 결과도 풍성했다. Segmentation에서는 ECLIPSE(Kim 외, 2024a)가 frozen backbone에 시각 프롬프트만 더해 panoptic continual seg의 catastrophic forgetting을 잡았고, $\text{SA}^2$VP는 dense prediction에서 modest token 수로 semantic·panoptic 성능을 함께 끌었다. Restoration의 PromptIR(Potlapalli 외, 2023)은 degradation-aware 프롬프트로 denoising·dehazing·deraining을 한 모델로 풀었고, FPro(Zhou 외, 2024b)는 dual prompt block으로 low/high frequency를 분리 변조해 네 가지 복원 태스크에서 일관된 향상을 보였다. 의료 측에서는 BiomedDPT(Peng 외, 2025)가 dual-modality 토큰으로 few-shot 분류·grounding·captioning을 묶었다. 적은 수치로도 가능했다.


Constrained learning 라인에서도 결과는 또렷했다. Few-shot에서 MaPLe(Khattak 외, 2023)는 vision·language 양쪽 인코더에 coupling function으로 묶인 프롬프트를 박아 base-new trade-off를 풀었고, TTA에서는 DynaPrompt(Xiao 외, 2025e)가 입력 의존 동적 프롬프트로 distribution shift를 따라갔다. Black-box에서는 BlackVIP가 zeroth-order로 API-only 모델을 학습 가능하게 만들었지만 query cost와 불안정성이 노출됐고, Zhang 외(2025c)의 prime-then-reprogram 전략이 local surrogate로 burden을 깎았다. Federated 측 pFedPrompt·FedPrompt는 global/local prompt를 분리해 non-IID 통신 비용을 작은 prompt 파라미터로만 흘렸다.


Ablation의 핵심 인사이트는 두 줄이었다. 첫째, prompt 길이는 단조 효과가 아니다. Kim 외(2024b)는 ViT의 self-attention 행렬 rank가 토큰 추가에 따라 로그적으로만 증가함을 보였다.


$$\operatorname{rank}(\tilde{A}_{n+m}) - \operatorname{rank}(\tilde{A}_n) = O(\log m)$$


초기 몇 토큰의 기여가 압도적이고 그 뒤는 수익체감이라는 정량 근거다. 둘째, prompt 배치가 성능을 가른다. Sun 외(2024c)의 border padding은 학습 토큰을 이미지 둘레에 두르는 방식으로 additive·internal 배치를 일관되게 앞섰다. positional embedding과 prompt가 충돌하지 않게 분리됐기 때문이라고 저자들은 설명했다.


Efficiency 축의 ablation은 일관됐다. parameter·optimizer 비용은 VPT에서 backbone 대비 <1% 수준으로 떨어지고 VP-Fixed에서는 0이지만, activation memory는 두 라인 모두 backbone 전체 forward를 그대로 통과했다. 짧다. backprop이 여전히 깊다. 결과적으로 peak GPU memory의 dominant 항은 activation이었고, 파라미터 효율과 메모리 효율을 동일시하면 안 된다는 결론이 모든 efficiency 비교에서 반복됐다.




6. 직관과 시각 자료


PA의 직관은 한 줄로 잡혔다. 모델은 그대로, 입력 위치(픽셀 vs 토큰) × 생성 방식(Fixed/Learnable/Generated)으로만 행동을 재조정한다는 좌표계다. VPT 측 변종 도식이 그 좌표 중 절반을 보여줬다면, VP 측 변종 도식은 나머지 절반을 채웠다.


고정된 점·박스 프롬프트가 그대로 입력에 붙는 VP-Fixed, 픽셀 공간에서 학습되는 패턴이 입력 옆에 함께 흐르는 VP-Learnable, 작은 생성기가 입력 영상마다 다른 프롬프트 패턴을 합성해 붙이는 VP-Generated의 세 갈래 구조


위 그림은 VP 라인이 "프롬프트가 어떻게 만들어지는가"의 세 길을 정리했다. 왼쪽 VP-Fixed는 점·박스·텍스트 힌트가 그대로 input image 옆에 첨부돼 frozen transformer로 흘러갔다. 학습 불꽃이 head에만 있다는 점이 결정적이었다. 가운데 VP-Learnable은 회색 patch 형태의 학습 가능한 프롬프트가 backbone과 분리된 채 head와 함께 gradient를 받았다. 오른쪽 VP-Generated에서는 generator 박스가 noise-like 패턴을 합성해 입력별로 다른 프롬프트를 얹었고, 이때 학습 신호는 generator와 head로 동시에 흘렀다. 세 구조 모두 backbone에 손대지 않았다는 점이 동일했다.


VP 도식과 앞서 본 VPT 도식을 겹쳐 보면 PA의 좌표계가 직관으로 닫혔다. 세로축은 작용 위치(픽셀↔토큰), 가로축은 생성 방식(Fixed→Learnable→Generated)이었다. VP-Fixed는 SAM 류의 interactive segmentation에 가장 직관적이었고, VPT-Deep은 spatial reasoning이 강한 dense task에서 layer-wise 재조정이 필요한 곳에 적합했다. VP-Generated와 VPT-Generated는 instance adaptivity를 사오는 대신 생성기 파라미터를 hidden cost로 짊어졌다. 좌표가 정해지면 도메인이 따라왔다. black-box·zero-shot·픽셀 인터랙션은 VP 쪽, semantic shift·temporal·3D 재정렬은 VPT 쪽으로 자연스럽게 자리를 잡았다.




7. Critical View


저자들의 2축 taxonomy는 깔끔했지만, 막상 §5의 실험 단면을 다시 읽으면 "파라미터 효율"과 "메모리 효율"의 비대칭이 끝까지 해결되지 않았다. VPT가 전체의 0.5% 미만만 학습한다는 수치는 인상적인데, backprop이 frozen backbone 전체를 그대로 통과한다는 사실은 efficiency 비교에서 반복적으로 각주 처리됐을 뿐이다. 솔직히 여기서 좀 헷갈렸다. 작년에 내가 RTX 3090 한 장으로 ViT-L에 VPT-Deep을 돌렸을 때, trainable param은 정말 1% 미만이었지만 peak memory는 full FT와 거의 같아서 batch size를 그대로 깎아야 했다. commodity GPU에서 진짜 비용은 activation memory인데 서베이 전반은 여전히 trainable parameter 수를 1차 효율 지표로 들고 있었다. Kim 외(2023b)·Simoulin 외(2024)의 MEFT 라인을 "보완"으로만 언급하고 끝낸 부분은 좀 더 정면으로 다뤄야 했다.


두 번째로 걸리는 지점은 "Generated"라는 라벨의 모호함이다. VPT-Generated 갈래의 DVPT·ViaPT·PGN은 인스턴스 적응성을 사오는 대신 hypernetwork 형태의 생성기 파라미터를 추가로 짊어졌는데, 이 비용이 prompt token 자체의 sparsity와 같은 저울에 올라가지 않았다. 저자가 "0.5% 파라미터"로 PA의 효율을 자주 강조했지만, generator 파라미터까지 합산하면 그 수치가 어디까지 유지되는지 Table 1 수준에서는 확인하기 어려웠다. lightweight의 정의가 흐려졌다.


재현 가능성 쪽도 단서가 약했다. 서베이가 25편 이상을 좌표화했지만, 동일 backbone·동일 downstream에서 sub-type 간 head-to-head를 한 자리에 모은 표는 없었다. VTAB-1k 19-task의 task-data 유사성 격자에서 "네 칸 중 세 칸 우세"라는 Han 외(2024)의 정성 요약에 무게가 실려 있었는데, 내가 후속 연구자라면 prompt 길이·위치·초기화에 대한 민감도 분석을 cross-paper로 재집계한 표 한 장을 더 보고 싶었다. Sun 외(2024c)의 border padding이 additive·internal 배치를 앞섰다는 결과가 모든 backbone에서 유지되는지, $\log m$ rank 증가식이 ConvNeXt 같은 비-attention 구조에서도 성립하는지는 열려 있다.


저자가 PA를 "vision backbone 내부에 집중"하는 좌표계로 봤지만, state-space 모델(Mamba류)이나 hybrid CNN-Transformer backbone에서의 PA는 사실상 빈 칸으로 남았다. 픽셀↔토큰이라는 이분법이 SSM의 선형 시퀀스 처리나 RWKV 류에서 어떻게 다시 갈라질지가 다음 논문의 자리다. 함께 후속 방향으로 잡힌 항목은 세 갈래다 — (i) activation-efficient PA(MEFT·gradient checkpointing·token pruning과의 결합), (ii) forward-only/federated 환경에서 zeroth-order의 query budget 정형화, (iii) safety·robustness·privacy를 PA의 일급 변수로 끌어들이는 신뢰성 분석. §8에서 deployment 이슈를 언급은 했지만 권고는 얇았다.




8. Take-aways


  • PA = VP(픽셀) ∪ VPT(토큰), 둘 다 Fixed/Learnable/Generated 3변종으로 통일됐다.
  • "Where × How" 2축 좌표계가 흩어진 25편의 prompt 연구를 한 격자에 앉혔다.
  • VPT는 정확도-효율 균형, VP는 black-box·training-free 친화 — 상호 보완 프로필이었다.
  • 0.5% 파라미터로 의료·위성·VLM·TTA를 가로질렀지만 activation memory는 그대로였다.
  • 다음 질문 — 픽셀과 토큰의 이분법이 Mamba 시대에도 같은 모양으로 살아남을까.