PaperReview 9

Planning with Diffusion for Flexible Behavior Synthesis

Planning with Diffusion for Flexible Behavior Synthesis저자: Michael Janner발행년도: 2022년https://arxiv.org/abs/2205.09991Diffusion으로 “계획”을 다시 짠 이유: 유연한 행동 합성을 위한 Planning with Diffusion 리뷰1. 문제 정의 (Problem Definition)로봇이나 에이전트가 해야 하는 일은 보통 “다음 행동을 맞히기”가 아니었다. 목표를 달성하면서도 상황에 맞게 행동을 바꾸는 유연한 계획(planning)이 핵심이었다. 이 논문은 그 계획을 기존의 최적화나 정책 대신, 확률적 생성 모델로 풀려고 했다.현실 환경에서는 정답 궤적이 하나가 아니었다. 같은 목표라도 장애물, 마찰, 센서 ..

PaperReview 2026.01.12

[pix2seq] Pix2seq: A Language Modeling Framework for Object Detection

저자: Ting Chen발행년도: 2022년인용수: None회https://arxiv.org/abs/2109.10852Pix2Seq가 “왜” 객체 검출을 시퀀스 생성으로 바꿨는지1. 문제 정의 (Problem Definition)객체 검출과 인스턴스 세그멘테이션은 늘 “구조화된 출력”을 요구했다. 박스 좌표, 클래스, 마스크처럼 결과가 여러 조각으로 나뉘었다. 그런데 대부분의 비전 모델은 입력은 이미지지만 출력은 고정 형태의 텐서로 강제했다. 이 불일치가 파이프라인을 복잡하게 만들었다고 봤다.기존 검출기는 “어디에 무엇이 몇 개 있나”를 동시에 풀어야 했다. 하지만 학습 목표는 분류, 박스 회귀, 매칭, NMS처럼 여러 손실로 쪼개졌다. 각 컴포넌트가 따로 최적화되면서 전체 목적과 어긋나는 경우가 잦았다..

PaperReview 2026.01.10

[BeiT] BERT Pre-Training of Image Transformers

[BEiT] BeiT저자: N/A발행년도: None년인용수: None회왜 BeiT는 “이미지분야 BERT”를 진짜로 만들려고 했는가: 토큰 예측으로 풀어낸 비전 사전학습1. 문제 정의 (Problem Definition)비전 트랜스포머가 강해지면서, 남은 핵심 질문은 “라벨 없이도 좋은 표현을 어떻게 만들까”였다. ImageNet 같은 라벨 데이터는 비싸고, 도메인이 바뀌면 금방 약해졌다. 그래서 대규모 비라벨 이미지로 범용 백본을 만드는 사전학습 문제가 중요해졌다.기존 자가지도 학습은 “이미지 전체를 같은 것으로 맞추기”에 강했다. 하지만 패치 단위의 의미를 세밀하게 배우기에는 목적함수가 애매했다. 실제 이미지에는 배경, 가림, 촬영 조건 변화가 많았다. 이런 노이즈는 모델이 쉬운 단서로만 학습하게 만..

PaperReview 2026.01.07

[FastReID]FastReID: A Pytorch Toolbox for General Instance Re-identification

[FastReID] FastReID저자: N/A발행년도: None년인용수: None회FastReID가 “왜” 필요한지에 대한 실무형 리뷰FastReID는 사람 재식별(Person Re-Identification, ReID) 연구를 더 잘하는 논문이라기보다, ReID를 “제대로 개발”하게 해주는 프레임워크에 가까웠다. 연구 코드가 실험 재현을 막고, 실무 코드가 연구 확장을 막는 간극을 문제로 봤다. 즉, ReID의 핵심 병목을 모델이 아니라 파이프라인의 생산성과 재현성으로 정의했다고 볼 수 있었다. 이 글은 그 관점에서 FastReID가 왜 이런 구조를 택했는지에 집중해 설명했다.1. 문제 정의 (Problem Definition)사람 ReID는 서로 다른 카메라에서 같은 사람을 찾는 문제였다. 조명, ..

PaperReview 2026.01.07

[DDPM]Denoising Diffusion Probabilistic Models

[DDPM] DDPM저자: N/A발행년도: None년인용수: None회1. 문제 정의 (Problem Definition)DDPM(Denoising Diffusion Probabilistic Models)이 정면으로 다뤘던 문제는 “고해상도 이미지 같은 복잡한 데이터 분포를, 학습이 안정적이면서도 샘플 품질이 높은 방식으로 생성할 수 있는가”였다. 생성 모델은 늘 “그럴듯한 이미지를 만든다” 수준을 넘어, 데이터 분포를 제대로 학습하고 모드 붕괴 없이 다양한 샘플을 내는 것이 핵심 과제였다고 봤다.기존 생성 모델들은 대체로 한 번에 이미지를 뽑거나(예: GAN), 잠재변수에서 바로 복원하거나(예: VAE), 혹은 자기회귀적으로 픽셀을 순차 생성하는 방식이었다. 그런데 실제 환경 데이터는 조명 변화, 센서..

PaperReview 2026.01.07

Visual Prompt Tuning

[VPT] Visual Prompt Tuning저자: M. Jia et al . Meta발행년도: ECCV 2022년인용수: None회https://arxiv.org/pdf/2203.121191. TL;DR이 논문이 새롭게 문제 삼은 지점은 “대규모 비전-언어 사전학습 모델을 다운스트림에 쓰려면, 왜 항상 전체(혹은 큰 부분)를 파인튜닝해야 하느냐”는 전제였다.저자들은 성능 이전에 ‘업데이트해야 하는 파라미터의 양’ 자체가 배포·확장·재사용을 가로막는 병목이라고 다시 정의했다.그래서 “모델을 바꾸는 일”이 아니라 “입력을 바꾸는 일”로 적응을 옮겨가야 한다는 문제의식을 제시했다.2. 이 논문을 읽기 전의 문제 인식나는 CLIP 같은 비전-언어 사전학습 모델에 대해서, 다운스트림 성능은 결국 파인튜닝으로 ..

PaperReview 2026.01.06

[AlexNet]ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks저자: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton발행년도: 2012년인용수: 160000회논문 링크: https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html1. TL;DRAlexNet은 “특징을 어떻게 설계할지”가 아니라 “대규모 데이터와 연산이 주어졌을 때도 표현을 끝까지 학습으로 밀어붙일 수 있는가”를 문제로 다시 세웠다.그 과정에서 ‘딥러닝은 비현실적이다’라는 당시의 암묵적 전제를, GPU·ReLU·정규화·드롭아웃 같은 ..

PaperReview 2026.01.05

[ResNet] Deep Residual Learning for Image Recognition

[ResNet] Deep Residual Learning for Image Recognition저자: Kaiming He, Xiangyu Zhang, Shaoqing Ren발행년도: 2015년 인용수: 298890회논문 링크: https://arxiv.org/abs/1512.033851. TL;DR이 논문이 새롭게 문제 삼은 지점은 “깊게 만들 면 표현력이 늘어서 좋아질 것”이라는 전제가 최적화 현실에서는 깨진다는 점이었다.저자들은 성능 저하를 과적합이나 단순 기울기 소실 문제가 아니라, “더 깊은 모델이 더 얕은 모델을 최소한 모방조차 못 하는 최적화 문제”로 다시 보이게 했다.이 재정의는 이후 모델 설계의 질문을 “얼마나 깊게 쌓을까”에서 “깊어져도 최소 성능을 보장하는 경로를 어떻게 만들까”로 옮겨..

PaperReview 2026.01.04

[Deit] Deit: Training data-efficient image transformers & distillation through attention

CNN 없이도 잘 되는 Vision Transformer는 어떻게 가능했을까?Vision분야에서는 CNN -> Transformer로의 전환이 하나의 큰 흐름이 되었다.그 중심에 있는 논문이 DeiT:Data-efficient Image Transformers 이다.ViT(Vision Transformer)의 가장 큰 한계는 명확했다.Transformer는 좋긴 한데,, 데이터가 너무 많이 필요하다.DeiT는 이 문제를 "학습 전략"으로 정면 돌파한 논문.1. 왜 Deit가 나왔는지2. 핵심 아이디어3. 실무/연구에서 어떤 의의가 있는지정리해보겠다.1. TL;DR이 논문이 새롭게 문제 삼은 지점은 “ViT는 데이터가 커야만 된다”는 전제가 당연해진 상황 자체였다. 그 전제는 모델 구조의 한계라기보다 학습..

PaperReview 2025.12.27