티스토리 뷰
BLIP 시리즈는 Vision-Language Pretraining(VLP)의 대표적인 계열로, 이미지와 텍스트를 함께 이해하고 생성하는 능력을 키워왔다. 그 중 InstructBLIP은 기존 모델에서 한 단계 더 나아가, 사용자의 명령어를 이해하고 그에 맞는 행동을 수행하는 Instruction-following 멀티모달 모델이다.
이 글에서는 기존 BLIP 모델과 InstructBLIP의 핵심적인 차이를 비교하고, InstructBLIP이 어떤 점에서 차별화되는지를 살펴본다.
1. 기존 BLIP (BLIP, BLIP-2)
1-1 BLIP
BLIP은 Vision-Language Pretraining (VLP)을 위해 고안된 모델로, 이미지와 텍스트 간의 상호 이해를 학습해 이미지 캡셔닝, 이미지-텍스트 검색, VQA 등 다양한 멀티모달 작업에 활용된다.
구조
- Vision Encoder: ViT (Vision Transformer)
- Text Encoder/Decoder: BERT 또는 GPT2
- Dual-encoder + Decoder 구조를 통해 이미지-텍스트 매칭과 생성 모두 가능
주요 학습 방식
- Image-Text Matching (ITM)
- Image-Text Contrastive Learning (ITC)
- Image Captioning (Language Modeling)
특징
- 다양한 멀티모달 태스크를 하나의 모델로 해결 가능
- pre-training → fine-tuning 전략으로 높은 성능
- 후속 모델인 BLIP-2, InstructBLIP으로 확장됨
1-2 BLIP-2

BLIP-2는 사전 학습된 이미지 인코더 + 사전 학습된 LLM을 연결해 효율적인 멀티모달 학습을 가능하게 만든 모델이다. 기존 BLIP보다 더 적은 학습 자원으로 더 강력한 zero-shot/few-shot 성능을 보여준다. frozen image encoder과 LLM 모델을 연결해주는 새로운 방법(Q-former)를 제시한다. frozen된 모델들을 가져옴으로써 파라미터 효율도 좋을 뿐만 아니라, 거대 모델의 성능 좋은 representation learning까지 활용해 다양한 VL task의 SOTA에 등극한다.
구조
- Vision Encoder: CLIP ViT (frozen)
- Q-Former: 이미지 피처를 텍스트 형태로 추출해주는 bridge 모듈
- LLM: FlanT5, OPT 등 (텍스트 기반 사전학습 LLM 사용)→ 이미지 → Q-Former → LLM 흐름
주요 아이디어
- 이미지-텍스트 표현 연결을 최소한의 학습으로 달성
- 이미지 정보를 텍스트 공간으로 변환하여 LLM의 언어 능력 활용
- LLM은 따로 학습하지 않고, Vision-Language 연결부만 학습
특징
- 효율적 학습: LLM을 고정하고 vision-to-text 연결부만 학습
- 강력한 zero-shot 성능: prompt만 바꿔 다양한 작업 수행 가능
- 모듈화된 구조로 확장성 우수 (InstructBLIP 기반 모델로도 발전)
여기서 Q-Former란, 간단한 transformer 구조로, frozen image encoder에서 정보를 뽑아내는데 활용된다. 첫 번째 단계에서는 이미지로부터 text와 연관된 정보를 뽑도록 학습되고, 두 번째 단계에서는 뽑아낸 정보들이 LLM에 의해 해석가능하도록 훈련된다. 결과적으로 Frozen Large Model들로 인한 파라미터 효율성을 얻음과 동시에, LLM의 zero-shot 성능을 VL task에 활용할 수 있게 되었다.
Stage 1 Pre-Training : Q-Former에 목적 함수 활용

1. ITC(Image-Text Contrastive Learning)
- Image representation, text representation을 align하기 위한 loss 함수.
- image transformer에서 나온 query output과 text transformer에서 나온 output간의 pairwise 유사도를 계산하고, 가장 값이 높은 pair를 query-text pair로 선정
2. ITG(Image-grounded Text Generation)
- 주어진 image에 맞는 text를 생성하도록 하는 loss
3. ITM(Image-Text Matching)
- image와 text pair가 매칭될 수 있도록 align 시키는 loss
Stage 2 Pre-Training : Q-Former를 LLM에 연결하는 과정

Q-Former의 output query는 완전연결 계층(Fully Connected Layer)를 통해 LLM로 전달됩니다. 완전연결 계층은 output query의 차원을 LLM의 text embedding 차원으로 사영(project)하는 역할을 한다. 사영된 결과물은 LLM의 text embedding 앞에 붙어 'soft visual prompt'로 활용된다.
2. InstructBLIP

InstructBLIP은 BLIP-2의 구조를 기반으로, 다양한 자연어 명령어(instruction)를 이해하고 이에 맞춰 이미지 기반 응답을 생성할 수 있도록 설계된 Instruction-following 멀티모달 모델이다. 기존 BLIP-2는 zero-shot 성능이 강점이었지만 명시적인 지시어에 대한 대응 능력이 제한적이었기 때문에, InstructBLIP은 명령어 학습(instruction tuning)을 통해 LLM의 유연한 추론 능력을 강화한 점이 핵심이다. InstructBLIP은 BLIP-2 와 동일한 아키텍처를 사용하지만 작지만 중요한 차이점이 있는데 그것은 Q-Former에 텍스트 프롬프트(지침)를 제공한다는 점이다.
InstructBLIP는 크게 두 단계의 학습 과정을 따른다:
- Pretraining (BLIP-2)
- Q-Former는 이미지-텍스트 alignment를 위해 사전학습됨
- LLM은 고정된 상태에서 vision-to-language 연결만 학습됨
- Instruction Tuning (FLAN)
- Zero-shot 성능이 낮은 이유를 zero-shot prompt 형태가 학습된 prompt 형태와 다르다는 것을 원인으로 생각하여 실제 zero-shot prompt 형태로 다양한 지시문 template를 만들어 학
- 다양한 명령어(prompt)를 포함한 멀티모달 데이터셋으로 supervised fine-tuning
- 예: “이 이미지에서 중요한 물체는?”, “이 장면에 대해 설명해줘.” 등
- LLM은 일부 fine-tuning 가능 or 그대로 사용
Instruction tuning에는 VQA 데이터, caption 데이터, dialogue-like 멀티턴 데이터 등 다양한 멀티모달 지시어가 포함된다.
3. BLIP 비교 요약표
| 모델 | 주요 목적 | 연결 구조 | 학습 대상 | 대표 특징 |
| BLIP | 기본 멀티모달 학습 | Vision + Text (joint) | 전부 학습 | 이미지 캡션, VQA, 리트리벌 |
| BLIP-2 | LLM 연동 효율화 | Vision → Q-Former → LLM | Q-Former만 학습 | 효율적 + zero-shot |
| InstructBLIP | 명령어 이해 기반 응답 | BLIP-2 + Instruction tuning | Q-Former + 일부 LLM | 대화형, 유연한 태스크 수행 |
참조
[Paper Review] (BLIP, BLIP-2) Bootstrapping Language-Image Pre-training 설명 및 논문 리뷰
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 논문 링크: https://arxiv.org/abs/2201.12086 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generatio
2na-97.tistory.com
https://seandoprep.tistory.com/6
📹빠르게 보는 BLIPv2 논문 리뷰📹
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models NLP 분야에서 유행하는 LLM(Large Language Model)의 성능은 이미 다양한 연구들로 충분히 입증되었습니다. 최근 각광받고
seandoprep.tistory.com
InstructBLIP
The InstructBLIP model was proposed in "[InstructBLIP: Towards General-purpose Vision-Language Mode…
wikidocs.net
https://huggingface.co/docs/transformers/main/model_doc/instructblip
InstructBLIP
Although the recipe for forward pass needs to be defined within this function, one should call the Module instance afterwards instead of this since the former takes care of running the pre and post processing steps while the latter silently ignores them.
huggingface.co
https://www.youtube.com/watch?v=6Zxs7srpuK8
'용어 정리' 카테고리의 다른 글
| GAN 시리즈 - GAN (6) | 2025.08.13 |
|---|---|
| OCR (3) | 2025.07.31 |
| VQA 시리즈 (3) | 2025.07.30 |
| LLM, LMM, LAM (3) | 2025.07.29 |
| ViT (2) | 2025.07.28 |