PaperReview

Segment Anything

Black940514 2026. 5. 5. 17:43

Segment Anything - 세미나 자료

저자: Alexander Kirillov, Eric Mintun, Nikhila Ravi 외 9명
발행년도: 2023년
인용수: None회
논문 링크: http://arxiv.org/abs/2304.02643v1
arXiv ID: 2304.02643


Segment Anything (SAM) 세미나 발표 자료

논문: Segment Anything (SAM)
저자: Alexander Kirillov, Eric Mintun, Nikhila Ravi 외 (Meta AI Research, FAIR)
발행: 2023, arXiv:2304.02643
링크: http://arxiv.org/abs/2304.02643v1


1. Problem & Motivation

1.1 Image Segmentation의 Task-Specific 한계

기존 image segmentation 분야는 task별로 별도의 모델을 학습해야 하는 구조적 한계를 가지고 있었다. Semantic segmentation, instance segmentation, panoptic segmentation, interactive segmentation은 각각 별개의 데이터셋·아키텍처·loss로 정의되었으며, 한 task에서 학습된 모델을 다른 task로 옮기려면 다시 finetuning이 필요했다. 이는 새로운 도메인(의료, 위성, 수중 등)이나 새로운 객체 카테고리가 등장할 때마다 annotation → 재학습 → 재배포라는 비용이 큰 사이클을 반복해야 했음을 뜻한다.

1.2 NLP Foundation Model의 성공과 Vision으로의 확장 요구

NLP 분야에서는 GPT 계열 LLM이 대규모 web-scale 텍스트로 사전학습되며, 단순한 prompt engineering만으로 zero-shot/few-shot 일반화가 가능함을 입증했다. CLIP·ALIGN과 같은 vision-language pretraining은 이러한 패러다임을 vision 영역에 부분적으로 도입했지만, segmentation처럼 픽셀 수준 출력이 요구되는 task에는 foundation model 패러다임이 적용되지 못한 상태였다. 저자들은 segmentation에서도 zero-shot generalization을 가능케 하는 foundation model의 부재가 가장 큰 공백이라고 진단했다.

1.3 대규모 Segmentation 데이터셋의 부재

Foundation model 학습에는 scale의 임계점을 넘는 데이터가 필요하다. 그러나 당시 가장 큰 segmentation 데이터셋이라 해도 COCO(약 0.9M masks), LVIS(약 1.5M masks), Open Images(약 2.7M masks) 수준에 머물러 있었으며, 이는 NLP의 web-scale corpus에 비해 4~5 자릿수 작았다. 웹에서 수집 가능한 텍스트와 달리 mask는 자연적으로 풍부하지 않다는 본질적 차이가 segmentation 분야의 foundation model 등장을 가로막아 왔다.

1.4 핵심 아이디어: Task–Model–Data의 공동 설계

저자들은 위 세 문제를 동시에 해결하기 위해 다음 세 컴포넌트를 결합했다.

  1. Promptable Segmentation Task: 어떠한 prompt(점·박스·마스크·텍스트)에도 valid mask를 출력하는 일반적인 task 정의.
  2. SAM (Segment Anything Model): 위 task를 수행하는 promptable·real-time·ambiguity-aware 모델.
  3. Data Engine: 모델이 데이터 수집을 보조하고, 그 데이터로 모델이 다시 강화되는 model-in-the-loop 데이터 파이프라인. 이를 통해 11M 이미지·1.1B 마스크의 SA-1B 데이터셋을 구축했다.

이 세 가지가 서로 강화되는 flywheel 구조로 설계되었다는 점이 본 연구의 가장 중요한 출발점이었다.

SA-1B 데이터셋 예시: SAM이 자동 생성한 11M 이미지·1.1B 마스크

위 이미지는 SA-1B 데이터셋의 한 예시로, 한 장의 이미지에 평균 약 100개의 고해상도 마스크가 자동으로 부여된 모습을 보여주었다. 이렇게 풍부한 마스크 밀도는 기존 segmentation 데이터셋에서는 관찰하기 어려운 특징이었다.


2. Background & Related Work

2.1 Interactive Segmentation의 흐름

Interactive segmentation은 사용자의 클릭·박스·낙서(scribble) 입력을 받아 객체 마스크를 점진적으로 다듬는 task였다. 대표적으로 RITM, FocalClick, SimpleClick 등이 high-IoU에 도달하기 위한 반복적 클릭 효율에 초점을 맞췄다. 그러나 이들은 사용자가 충분히 많은 점을 입력한다는 가정 위에서 학습·평가되었으며, 단일 prompt에서 곧장 valid mask를 내는 일반화 능력보다는 정교한 마스크 다듬기를 우선시했다.

2.2 NLP Foundation Models: Prompt Engineering과 Zero-shot Transfer

GPT-3 등 대규모 언어모델은 task-specific finetuning 없이 prompt만으로 다양한 downstream task를 수행할 수 있음을 보여주었다. 핵심 인사이트는 pre-training task를 충분히 일반적으로 정의하면, 후속 과제는 prompt 구성으로 환원된다는 점이다. SAM은 이 사상을 segmentation으로 옮긴 시도였다.

2.3 CLIP·ALIGN: Vision-Language Pretraining

CLIP·ALIGN은 image-text contrastive learning으로 이미지·텍스트 임베딩을 정렬했다. 결과적으로 텍스트 prompt만으로 zero-shot classification이 가능해졌고, DALL·E와 같은 합성 모델의 핵심 component로 사용되었다. SAM 역시 후술할 Zero-shot Text-to-Mask 실험에서 CLIP의 image embedding을 prompt로 사용함으로써 텍스트 기반 segmentation을 가능하게 했다.

2.4 기존 Segmentation 데이터셋과 SA-1B 비교

데이터셋 이미지 수 마스크 수 마스크/이미지
COCO 0.123M 0.9M ~7
ADE20K 0.028M 0.7M ~25
LVIS v1 0.120M 1.5M ~12
Open Images V5 1M 2.7M ~2.7
SA-1B 11M 1.1B ~100

SA-1B는 이미지 수 11배, 마스크 수 400배의 압도적 규모를 보였으며, 이미지당 마스크 밀도 또한 한 자릿수 ~ 두 자릿수 수준이었던 기존 데이터셋을 크게 상회했다.

2.5 Promptable Task가 기존 task와 다른 점

기존 interactive/semantic/instance segmentation은 train과 test의 task가 동일하다는 가정 위에 설계되었다. 반면 promptable segmentation은 사전학습 task를 prompt에 대한 valid mask 출력으로 일반화함으로써, 추론 시 새로운 task를 prompt 구성으로 표현할 수 있는 차이를 가졌다. 즉 SAM은 단독 사용뿐 아니라 다른 시스템(예: detector)과 조합되어 새로운 task의 component로 동작할 수 있도록 설계되었다.


3. Segment Anything Task 정의

3.1 Promptable Segmentation Task의 정의

논문은 task를 다음과 같이 정의했다.

"임의의 prompt가 주어졌을 때 valid segmentation mask를 반환하는 task."

여기서 prompt는 무엇을 분할할지 지시하는 모든 정보(점, 박스, 마스크, 자유 텍스트)를 포함했다. "valid"라는 단어는 결정적인데, prompt가 ambiguous하더라도 출력은 적어도 하나의 합리적 객체에 해당해야 한다는 의미를 담았다. 예컨대 셔츠를 입은 사람 위의 한 점은 "셔츠"와 "사람"을 동시에 가리킬 수 있는데, SAM은 둘 중 어느 하나에 대한 reasonable mask를 출력하면 valid한 것으로 간주되었다.

단일 ambiguous point prompt에 대한 SAM의 3가지 valid mask 출력

위 Figure는 동일한 점 prompt(녹색 원)에 대해 SAM이 whole/part/subpart에 해당하는 3개의 서로 다른 valid mask를 동시에 출력하는 모습을 보여주었다. 이것이 SAM의 ambiguity 처리 철학을 잘 드러냈다.

3.2 Prompt 종류: Sparse vs Dense

  • Sparse prompts: point, bounding box, free-form text. 위치 또는 의미 기반의 희소 정보.
  • Dense prompts: mask. 입력 이미지와 동일한 공간 해상도의 dense 정보.

3.3 Pre-training Objective

SAM의 사전학습은 interactive segmentation의 simulated 버전으로 구성되었다. 학습 시 ground truth mask로부터 prompt(점·박스 등)를 무작위로 sampling하고, 모델이 출력한 mask를 GT와 비교하는 방식이었다. 핵심은 모든 prompt에 대해 "항상" valid mask를 출력하도록 학습된다는 점이며, 이는 단순히 클릭 수가 늘어나면 마스크가 좋아지는 기존 interactive segmentation과는 다른 목표였다.

3.4 Zero-shot Transfer로의 확장 의도

저자들은 promptable task를 pre-training objective이자 zero-shot transfer의 일반 메커니즘으로 사용했다. 새로운 task가 주어지면 그것을 적절한 prompt 구성으로 재해석함으로써 SAM을 그대로 적용했다. 예컨대 instance segmentation은 "object detector의 박스를 prompt로 입력"하는 방식으로, edge detection은 "regular grid point prompt → 모든 마스크의 경계를 추출"하는 방식으로 환원되었다.


4. SAM Architecture & Method

4.1 전체 파이프라인

SAM의 전체 구조: Image Encoder → Prompt Encoder → Mask Decoder

위 Figure는 SAM의 핵심 설계 의도를 한 장에 보여주었다. 무거운 image encoder를 prompt에 독립적으로 1회만 실행하고, 가벼운 prompt encoder/mask decoder를 prompt마다 빠르게 호출하는 amortization 구조를 갖추었다.

전체 흐름은 다음과 같이 정리되었다.

Image (1024x1024)
   │
   ▼
[Image Encoder: ViT-H, MAE pre-trained]   ← 1회만 수행 (~수백 ms)
   │
   ▼
Image Embedding (256 x 64 x 64)
   │
   ├──── + [Prompt Encoder] ←  point / box / mask / text
   │
   ▼
[Mask Decoder: 2-layer modified Transformer]   ← prompt마다 ~50ms
   │
   ▼
3 valid masks + IoU prediction per prompt

4.2 Image Encoder

  • MAE pre-trained ViT-H/16(636M params)을 사용했으며, 입력은 1024×1024로 rescaled되었다.
  • 출력은 16× downscaled된 64×64 spatial embedding(채널 256)이었다.
  • 설계 의도: image encoder는 가장 무거운 연산이지만, 이미지마다 한 번만 계산되므로 다양한 prompt에 대해 비용이 amortize되었다. 결과적으로 prompt encoder + mask decoder는 웹 브라우저 CPU에서도 약 50ms 안에 동작하는 real-time 인터랙션을 구현했다.

4.3 Prompt Encoder

  • Sparse prompts:
    • Point: 위치의 positional encoding + (foreground/background) learned embedding.
    • Box: 두 코너(top-left, bottom-right)에 대한 (positional encoding + learned embedding) 쌍.
    • Text: CLIP의 text encoder 출력 임베딩을 직접 사용.
  • Dense prompts (mask): 입력 마스크를 4× downsampling 후 conv로 임베딩하고, image embedding에 element-wise sum으로 결합했다.

4.4 Mask Decoder: Two-way Cross-Attention

Mask decoder는 수정된 Transformer decoder block 2개로 구성되었다. 각 layer는 다음 4단계를 거쳤다.

  1. Self-attention on tokens(prompt tokens + 학습된 output tokens)
  2. Token → Image cross-attention (token이 image embedding을 query)
  3. Point-wise MLP로 token 갱신
  4. Image → Token cross-attention (image embedding이 token을 query)

두 방향(two-way) cross-attention 구조 덕분에 token과 image embedding이 상호 갱신되었고, 매 attention layer마다 positional encoding과 prompt token이 다시 주입되어 기하 정보가 보존되었다. 이후 image embedding은 4× upsample되고, output token이 dynamic linear classifier 가중치로 활용되어 픽셀별 mask 확률을 산출했다.

4.5 Ambiguity 해소: 3-way Multi-mask 출력

SAM은 단일 prompt에 대해 3개의 마스크(whole / part / subpart)를 동시에 출력하고, 각 마스크의 predicted IoU score를 함께 예측했다. 학습 시에는 3개의 출력 중 GT와 loss가 가장 작은 것 하나에 대해서만 backpropagation했다(minimum-loss training). 이는 multiple choice learning 계열의 기법과 유사한 전략이었다.

여러 prompt가 함께 주어지는 경우 ambiguity가 줄어드는 경향이 있어, 별도의 4번째 mask token을 두어 multi-prompt 조건에서는 단일 unambiguous mask를 출력하도록 분기시켰다.

4.6 Loss와 학습 전략

Loss는 다음과 같이 구성되었다.

L_mask = 20 · L_focal + 1 · L_dice
L_total = L_mask + 1.0 · L_iou (MSE between predicted IoU and actual IoU)

Interactive simulation 학습은 다음 11 iteration으로 구성되었다.

  1. 초기 prompt 1개(점 또는 박스) 무작위 sampling
  2. 8 iteration 동안 error region(false-negative/false-positive)에서 추가 점을 sampling하고 이전 마스크 logit을 mask prompt로 재투입
  3. 추가 정보 없이 모델이 자체 예측을 다듬는 iteration 2회

이러한 학습 시뮬레이션이 곧 데이터 엔진의 annotator 보조 시나리오와 정렬되었다.

학습 환경은 AdamW (β1=0.9, β2=0.999), lr 8e-4, batch size 256, 256 GPU(A100), 90k iter (~2 SA-1B epochs) 조건이었다.


5. Data Engine & SA-1B Dataset

5.1 3-Stage Data Engine 설계 의도

웹에서는 마스크가 풍부하지 않으므로, 저자들은 모델이 데이터 수집을 가속하고 새 데이터가 모델을 다시 강화하는 3-stage 엔진을 설계했다.

Stage 1: Assisted-Manual

  • 상황: 초기 SAM은 공개 segmentation 데이터셋으로만 학습된 상태였다.
  • 방식: 전문 annotator가 SAM이 보조하는 브라우저 기반 인터랙티브 도구로 객체를 클릭하며 마스크를 직접 라벨링했다(픽셀 단위 brush/eraser 보정 가능).
  • 결과: 평균 annotation 시간이 34초 → 14초로 단축되었으며, 120k 이미지에서 4.3M 마스크가 수집되었다. 이 단계에서 SAM은 6번 재학습되었고, image encoder는 ViT-B → ViT-H로 키워졌다.
  • 의도: COCO 대비 6.5배 빠른 annotation 속도로 빠르게 모델 부트스트랩.

Stage 2: Semi-Automatic

  • 방식: SAM이 confident mask를 자동 생성해 이미지에 미리 채워두고, annotator는 빠진 객체만 추가 라벨링하도록 작업을 집중시켰다. (object detector를 1단계 마스크에 학습시켜 confident mask region을 식별)
  • 결과: 추가 5.9M 마스크(180k 이미지) 확보, 누적 10.2M 마스크. 이미지당 평균 마스크 수 44 → 72로 증가했다.
  • 의도: 마스크 다양성(prominent → less prominent) 확보.

Stage 3: Fully Automatic

  • 방식: SAM에 32×32 regular grid 점을 자동 prompt로 주고, ambiguity-aware 출력을 활용해 whole/part/subpart 마스크를 모두 예측. predicted IoU와 stability(0.5±δ threshold에서 마스크가 일관적인지)를 사용해 confident & stable 마스크만 남기고, NMS로 중복을 제거했다. 작은 객체를 포착하기 위해 zoomed-in crop도 함께 처리했다.
  • 결과: 11M 이미지 전체에 1.1B 마스크 자동 생성. 모든 이미지에서 평균 약 100개 마스크.
  • 의도: 인간 입력 없이 scale을 풀가속하면서도 품질 유지.

5.2 자기 강화(self-reinforcement) 메커니즘

각 stage가 끝날 때마다 수집된 새 마스크로 SAM을 재학습시킴으로써, 다음 stage에서는 더 정확한 모델이 더 빠르고 다양하게 데이터를 수집했다. 모델 → 데이터 → 모델의 양방향 강화 루프(model-data flywheel)가 본 연구의 가장 큰 엔지니어링 기여 중 하나였다.

5.3 SA-1B 통계와 Mask Quality 검증

  • 이미지: 11M장, 평균 해상도 3300×4950(공개판은 짧은 변 1500px로 downsample), 라이선스·프라이버시 보호(얼굴·번호판 blur).
  • 마스크: 1.1B개, 그 중 99.1%가 fully automatic으로 생성되었음에도 SA-1B에는 자동 생성 마스크만 포함되었다.
  • 품질 검증: 500 이미지(~50k 마스크)에 대해 annotator가 직접 보정한 결과와 비교했을 때, 94%의 pair가 IoU > 90%, 97%의 pair가 IoU > 75%였다. 이는 inter-annotator consistency(85–91%)를 상회하는 수준이었다.

5.4 마스크 분포와 다양성 비교

이미지 크기로 정규화된 mask center 분포

위 Figure는 SA-1B의 마스크 중심 분포가 LVIS·ADE20K와 유사하게 이미지 모서리까지 광범위하게 퍼져 있음을 보여주었다. COCO·Open Images에서 두드러지는 center bias가 SA-1B에서는 완화되어, 더 다양한 위치의 객체를 커버하는 데이터임을 확인할 수 있었다.

SA-1B와 기존 데이터셋의 마스크 속성 비교

위 Figure는 이미지당 마스크 수, 상대 마스크 크기, 모양 복잡도(concavity) 분포를 비교했다. SA-1B는 이미지당 마스크 11배·총 마스크 400배 규모임에도 마스크 모양 복잡도 분포는 다른 데이터셋과 유사하여, 단순한 자동 마스크가 아니라 품질·복잡성 모두를 유지한 대규모 데이터임이 확인되었다.

5.5 Responsible AI: 라이선스·프라이버시·공정성

SA-1B 이미지의 추정 지리적 분포

위 Figure는 SA-1B 이미지의 국가별 분포를 보여주었다. 세계 대부분의 국가가 1000장 이상 포함되었고, 상위 3개국이 서로 다른 대륙에 분포해 기존 vision 데이터셋(Europe·North America 편중)에 비해 지리적 다양성이 개선되었다.

  • License: 사진 제공자와의 라이선스 계약을 거쳐 11M 이미지를 사용했다.
  • Privacy: 얼굴·번호판은 자동 blur 처리되었다.
  • Fairness: MIAP 데이터셋(perceived gender / age / skin tone)을 활용해 사람 segmentation 성능 격차를 측정했고, 1점 prompt에서 미세한 차이는 있으나 3점 prompt 기준 모든 그룹의 신뢰구간이 겹치는 수준으로 SAM이 균등하게 작동함을 보고했다. 다만 의류 segmentation에서는 perceived gender presentation 간 일부 편향이 관찰되었다.

6. Experiments & Zero-shot Transfer

6.1 실험 셋업

저자들은 새롭게 컴파일한 23개 데이터셋(egocentric, microscopy, X-ray, underwater, aerial, painting 등)에서 SAM을 zero-shot 평가했다. 이들 데이터셋은 모두 SAM 학습 시 사용되지 않은 분포였으며, 5가지 zero-shot task로 구성되었다.

  1. Single Point Valid Mask
  2. Edge Detection
  3. Object Proposals
  4. Instance Segmentation
  5. Text-to-Mask

6.2 Zero-shot Single Point Valid Mask

가장 어려운 ill-posed 시나리오였다. 객체 중심점 1개만 주어진 상태에서 valid mask를 예측해야 했다.

  • 결과(automatic mIoU): 23개 중 16개 데이터셋에서 SAM이 강력한 baseline RITM을 최대 +47 mIoU 차이로 능가했다.
  • Oracle 평가(SAM의 3개 mask 중 GT와 가장 잘 맞는 것 선택): SAM이 모든 23개 데이터셋에서 RITM을 상회했다. 이는 단일 prompt의 ambiguity가 metric을 과소평가하는 현상을 보정한 결과였다.
  • Human Study(1–10 rating): 7개 데이터셋에서 SAM의 평균 평점이 RITM과 single-output SAM을 유의미하게 상회했으며, 평균 7~9 사이("identifiable, errors small and rare") 구간에 분포했다.

6.3 Zero-shot Edge Detection (BSDS500)

SAM은 edge detection에 학습되지 않았음에도 automatic mask generation pipeline을 단순화한 후 sobel 필터링·NMS를 적용해 edge map을 만들었다.

방법 ODS OIS AP R50
HED (2015) .788 .808 .840 .923
EDETR (2022) .840 .858 .896 .930
Sobel .539
Canny .600 .640 .580
SAM (zero-shot) .768 .786 .794 .928

SAM은 R50=0.928로 거의 모든 edge를 recall했으며, BSDS의 annotation bias("억제해야 할 edge")를 학습하지 못해 over-detection이 일부 있었음에도 zero-shot으로 HED에 근접했다.

6.4 Zero-shot Object Proposals (LVIS v1)

방법 all small med. large freq. com. rare
ViTDet-H (DMP) 63.0 51.7 80.8 87.0 63.1 63.3 58.3
SAM 59.3 45.5 81.6 86.9 59.1 63.9 65.8

SAM은 medium/large/rare 객체에서는 강력한 도메인 특화 ViTDet을 능가했고, 가장 어려운 rare 카테고리에서는 +7.5 AR@1000로 격차를 벌렸다.

6.5 Zero-shot Instance Segmentation

ViTDet의 박스를 prompt로 입력해 SAM이 박스 내부 객체를 분할하는 composition 시나리오였다.

  • COCO: SAM 46.5 vs ViTDet 51.0 (mAP). 자동 metric은 ViTDet 우세.
  • LVIS: SAM 44.7 vs ViTDet 46.6.
  • 그러나 human study에서 SAM의 mask가 더 깔끔한 boundary를 가졌다는 평가를 일관되게 받았다. ViTDet은 COCO·LVIS의 annotation 편향(예: 구멍 없는 polygon)을 학습한 반면, SAM은 그러한 편향을 학습하지 않아 시각적 품질에서 우위를 보였다.

6.6 Zero-shot Text-to-Mask (CLIP 결합)

  • 학습: 100²+ 픽셀 면적의 마스크에 대해 그 영역의 CLIP image embedding을 prompt로 사용.
  • 추론: CLIP은 image-text embedding이 정렬되어 있으므로, 학습 시에는 image embedding을, 추론 시에는 CLIP text embedding을 그대로 prompt로 투입했다.
  • 결과: "a wheel", "beaver tooth grille" 같은 단순/뉘앙스 텍스트로 segmentation이 가능했다. 실패 시 추가 point prompt 1개로 보완 가능하다는 점이 흥미로웠다.

6.7 Ablation Studies

저자들은 23개 데이터셋 평균 mIoU 기준으로 다음 ablation을 수행했다.

  • Data engine stage별 기여: manual → +semi-auto → +fully-auto로 갈수록 mIoU가 단조 상승. 자동 마스크만으로 학습한 모델도 전체 stage 데이터를 사용한 모델과 거의 동일한 성능을 보여, automatic-only 학습이 충분히 효과적임이 입증되었다.
  • 데이터 규모: 0.1M → 1M → 11M로 늘리면 mIoU가 상승하지만, 1M(약 10%)에서 11M에 매우 근접했다. 즉 10% 규모로도 실용적이라는 점이 부각되었다.
  • Image encoder scale: ViT-B → ViT-L에서 큰 폭 개선, ViT-L → ViT-H에서는 saturating gain. 더 큰 인코더가 항상 정답은 아니라는 시사점이었다.

7. 비판적 분석 & 정리

7.1 한계점

  • Semantic label 부재: SAM은 마스크의 형태를 잘 잡지만 카테고리 라벨을 출력하지 않았다. semantic/panoptic segmentation으로 직접 확장하려면 외부 분류기와의 결합이 필요했다.
  • Fine-grained 구조 약점: 머리카락, 가는 가지, 작은 단절 부위 등 연결성이 약한 구조를 놓치거나 hallucinate하는 경향이 있었다. 이런 경우 zoom-in 기반 dedicated method가 더 우수한 결과를 냈다.
  • Real-time의 정의: 인코딩이 끝난 뒤의 prompt encoder + mask decoder는 ~50ms로 real-time이지만, 무거운 image encoder는 ViT-H 기준 비실시간이었다. 새로운 이미지에 대한 첫 응답까지의 latency는 여전히 큰 편이었다.
  • Text-to-Mask는 proof-of-concept: 견고하지 않으며, 실패 시 수동 prompt 보완이 필요했다.

7.2 SA-1B의 데이터 편향

  • 지리적 분포는 기존 데이터셋보다 개선되었으나, Africa·중남미·저소득 국가는 여전히 underrepresented였다.
  • 객체 카테고리가 사진 촬영자의 관심사에 의해 결정되었으므로, 일상 객체 위주로 구성되었을 가능성이 컸다.
  • Fairness 분석은 perceived attributes 위주였으며 self-reported 정보 기반의 검증은 부재했다. 또한 사람 segmentation에 한정된 점에서 다양한 도메인의 fairness 검증으로 보기에는 충분하지 않았다.

7.3 재현 가능성

  • SAM 모델 가중치와 SA-1B 데이터셋(Apache 2.0 / 별도 라이선스)이 공개되어 사용·연구는 누구나 가능했다.
  • 그러나 학습 자체는 256×A100 × 68시간 (~6963 kWh, 2.8 metric tons CO₂) 규모의 자원을 요구해, 재학습/재현은 대형 연구실이 아닌 곳에서는 사실상 어려웠다.
  • 또한 annotator 130명, 1년 수준의 인력이 데이터 엔진에 투입되었으므로 데이터 재현 비용은 모델 학습보다도 컸다.

7.4 후속 연구 방향

SAM은 발표 직후 다양한 방향으로 분기되었다.

  • SAM2: 이미지 → 비디오로 확장된 promptable video segmentation.
  • MedSAM / SAM-Med: 의료 영상 도메인 특화 finetuning.
  • Grounded-SAM: Grounding DINO 등 open-vocabulary detector와 결합한 언어 기반 zero-shot segmentation.
  • Efficient SAM / MobileSAM / FastSAM: 모바일·엣지 배포를 위한 경량화.
  • 3D / Point Cloud SAM: 3D foundation model 방향.
  • 일반 vision foundation model과의 결합(예: MCC를 통한 single RGB-D 3D reconstruction).

7.5 핵심 테이크어웨이 3줄

  1. Task–Model–Data 공동 설계: promptable task 정의, 그것을 만족하는 SAM, 그리고 그 모델로 만든 SA-1B가 하나의 통합 설계로 도출되었다는 점이 SAM 논문의 본질이었다.
  2. Promptability가 zero-shot의 열쇠: prompt를 일반화 매개체로 두면 segmentation이 다양한 downstream task의 component로 합성 가능해졌고, 이것이 vision foundation model의 실용성을 크게 끌어올렸다.
  3. Data Engine으로 Model–Data Flywheel 구축: 자연적으로 수집되지 않는 도메인(segmentation)에서도, 모델이 데이터 수집을 가속하고 데이터가 모델을 강화하는 cyclic engineering을 통해 web-scale 학습이 가능함을 입증했다.

요약 한 줄: Segment Anything은 "일반적인 task 정의 + 효율적 모델 설계 + 모델-인간이 협업하는 데이터 엔진"의 삼중주로, vision segmentation을 foundation model 시대로 견인한 이정표적 연구였다.