PaperReview

Visual Instruction Tuning

Black940514 2026. 2. 8. 14:58

Visual Instruction Tuning

저자: Haotian Liu, Chunyuan Li, Qingyang Wu 외 1명
발행년도: 2023년
인용수: None회
논문 링크: http://arxiv.org/abs/2304.08485v2
arXiv ID: 2304.08485


LLaVA 논문 리뷰: GPT-4로 멀티모달 instruction 데이터를 만든다고?

요즘 멀티모달 AI에 관심이 많다. ChatGPT가 텍스트에서 놀라운 성능을 보여줬으니, 당연히 다음 질문은 "이미지도 이해하는 AI를 어떻게 만들지?"였다. BLIP-2나 Flamingo 같은 모델들이 이미 있었지만, 이 모델들은 사용자의 지시를 자연스럽게 따르는 데 한계가 있었다. 이미지를 보고 캡션 정도는 잘 뽑는데, "이 이미지에서 뭐가 이상해?" 같은 열린 질문에는 제대로 대응하지 못했다. 그때 눈에 들어온 게 바로 이 논문, LLaVA(Large Language and Vision Assistant)였다.

핵심 문제: 멀티모달 instruction 데이터가 없다

NLP 쪽에서는 instruction tuning이 이미 큰 성공을 거뒀다. Alpaca나 Vicuna처럼, GPT가 생성한 instruction-following 데이터로 오픈소스 LLM을 파인튜닝하면 사용자 지시를 잘 따르는 모델이 만들어졌다. 그런데 이걸 멀티모달로 확장하려니 근본적인 문제가 하나 있었다. 이미지-텍스트 쌍 데이터는 CC3M이나 LAION처럼 대규모로 존재하지만, "이 이미지를 보고 이런 질문에 이렇게 답해라"는 형태의 instruction-following 데이터는 거의 없었다.

사람이 직접 만들자니 비용이 어마어마하고, 어떤 형태로 만들어야 하는지도 명확하지 않았다. 이 논문의 저자들은 여기서 기발한 아이디어를 냈다.

이미지를 직접 보여줄 수 없는 text-only GPT-4를 활용해서, 이미지에 대한 instruction-following 데이터를 자동으로 만들 수 있다.

처음엔 "이미지를 못 보는 GPT-4로 어떻게 시각 데이터를 만들지?" 싶었는데, 알고 보니 핵심은 이미지를 텍스트로 변환하는 것이었다. COCO 데이터셋의 캡션과 바운딩 박스 정보를 GPT-4에게 넘겨주고, 마치 이미지를 보고 있는 것처럼 대화, 상세 설명, 복합 추론 데이터를 생성하게 했다.

instruction-following 데이터 예시

위 예시에서 보듯이, 캡션과 바운딩 박스라는 두 종류의 컨텍스트를 GPT-4에 제공하고, 대화/상세 설명/복합 추론이라는 세 가지 유형의 응답을 생성했다. 이렇게 총 158K개의 instruction-following 샘플을 확보했다.

모델 구조: 놀라울 정도로 단순하다

사실 이 부분이 가장 인상 깊었다. LLaVA의 아키텍처는 정말 심플하다.

LLaVA 네트워크 구조

구조를 보면 CLIP의 ViT-L/14 비전 인코더가 이미지 특징을 추출하고, 단순한 linear projection layer 하나가 이 시각 토큰을 LLM의 워드 임베딩 공간으로 매핑한다. 그리고 언어 모델로는 Vicuna를 사용했다. Flamingo의 gated cross-attention이나 BLIP-2의 Q-former 같은 복잡한 연결 구조 없이, 정말 projection matrix W 하나로 연결한 것이다.

Hv = W · Zv — 이게 전부다.

저자들은 이 단순함이 오히려 장점이라고 했다. 복잡한 구조 실험 대신 데이터 중심 실험을 빠르게 반복할 수 있었기 때문이다. 이 부분에서 "아, 모델 구조보다 데이터 품질이 더 중요할 수도 있겠구나"라는 깨달음이 있었다.

학습은 2단계로 진행했다. Stage 1에서는 비전 인코더와 LLM 가중치를 모두 고정하고, projection matrix만 학습시켰다. CC3M에서 필터링한 595K 이미지-텍스트 쌍으로 시각 토큰과 언어 토큰의 정렬을 맞추는 단계다. 저자들은 이걸 "frozen LLM을 위한 호환 가능한 visual tokenizer를 학습하는 것"이라고 표현했는데, 비유가 정확했다.

Stage 2에서는 비전 인코더만 고정하고, projection layer와 LLM 전체를 함께 파인튜닝했다. 여기서 앞서 만든 158K instruction-following 데이터를 사용했다. 학습 비용도 놀라울 정도로 적었다. 8개 A100으로 프리트레이닝 4시간, 파인튜닝 10시간이면 끝났다.

실험 결과: 80K 이미지로 GPT-4급 추론을?

결과에서 가장 놀라웠던 건, LLaVA가 약 80K개 unique 이미지만으로 학습했음에도 멀티모달 GPT-4와 상당히 유사한 추론 결과를 보여줬다는 점이다.

Extreme Ironing 예시

이 "Extreme Ironing" 예시에서 "이 이미지에서 뭐가 이상해?"라는 질문에 대해, BLIP-2는 "남자가 노란 택시 뒤에 앉아 있다"고만 답했고, OpenFlamingo는 "남자가 차 위에서 옷을 말리고 있다"고 했다. 반면 LLaVA는 미니밴 위에서 다림질하는 것의 비정상성을 정확히 지적하고, 안전 문제까지 언급했다. 사용자의 의도를 파악하고 적절히 답하는 능력이 확연히 달랐다.

정량적으로는, LLaVA-Bench (COCO)에서 text-only GPT-4 대비 85.1%의 상대 점수를 달성했다. 특히 complex reasoning 카테고리에서 96.5%라는 인상적인 수치를 기록했다. LLaVA-Bench (In-the-Wild)에서도 BLIP-2 대비 +29%, OpenFlamingo 대비 +48%의 개선을 보였다.

Science QA에서의 실험도 흥미로웠다. LLaVA 단독으로 90.92% 정확도를 달성했는데, 여기에 GPT-4를 judge로 사용하는 앙상블 방식을 적용하니 92.53%로 새로운 SoTA를 기록했다. 이미지를 볼 수 없는 text-only GPT-4가 이미지 문맥이 필요한 문제에서도 성능을 향상시켰다는 게 재밌었다. 실제로 일부 문제는 이미지 없이도 상식으로 풀 수 있었고, GPT-4가 LLaVA의 시각적 오류를 잡아내는 역할을 했다.

Ablation 결과도 의미 있었다. 프리트레이닝 없이 바로 Science QA를 학습하면 정확도가 85.81%로 약 5% 하락했다. Stage 1의 feature alignment이 사전 학습된 지식을 보존하면서 모달리티 간 정렬을 맞추는 데 핵심적이었음을 보여준다.

Chicken Nugget Meme 이해

이 치킨 너겟 밈 예시에서 LLaVA는 텍스트와 이미지의 유머러스한 대비를 정확히 이해하고 설명했다. BLIP-2와 OpenFlamingo는 사용자 지시를 따르지 못한 반면, LLaVA는 GPT-4와 유사한 수준의 이해를 보여줬다.

한계점도 솔직하게

물론 한계도 있었다. 저자들이 직접 지적한 것처럼, LLaVA는 때때로 이미지를 "bag of patches"처럼 인식해서 복합적인 의미를 놓치는 경우가 있었다. 냉장고 안에 요거트와 딸기가 따로 있는데, "딸기맛 요거트가 있냐"는 질문에 "yes"라고 답한 사례가 대표적이다. 고해상도 이미지의 세밀한 텍스트 인식이나, 특정 브랜드 식별 같은 작업에서도 한계를 보였다.

또 하나 아쉬운 건 평가 방식이다. GPT-4를 judge로 사용하는 방식은 직관적이고 효과적이지만, GPT-4 자체의 편향이 평가에 영향을 줄 수 있다. 이 부분은 이후 연구들에서도 계속 논의되는 이슈다.

솔직한 생각

이 논문의 진짜 가치는 모델 아키텍처가 아니라 패러다임의 전환에 있다고 본다. "멀티모달 instruction-following 데이터를 GPT-4로 자동 생성할 수 있다"는 발견은 이후 수많은 후속 연구의 문을 열었다. 실제로 LLaVA-1.5, LLaVA-NeXT 등 후속 모델들이 이 파이프라인을 발전시키며 큰 성과를 냈다.

실무적으로 적용한다면, 데이터 생성 파이프라인의 품질 관리가 가장 중요할 것이다. GPT-4가 캡션과 바운딩 박스만으로 생성한 데이터에는 실제 이미지와의 괴리가 있을 수 있기 때문이다. 그리고 단순한 linear projection 대신 더 정교한 연결 구조를 사용하면 어떤 변화가 있을지도 궁금하다.

결국 이 논문이 던지는 메시지는 명확하다. 좋은 데이터가 있으면, 단순한 구조로도 놀라운 결과를 만들 수 있다.

다음에는 LLaVA-1.5 논문과 함께, 최근 멀티모달 모델들이 vision encoder와 LLM 사이의 연결 구조를 어떻게 발전시켰는지 비교해봐야겠다.