[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #2

Dacon

by grizzly 2025. 7. 7. 14:25

Related Work

목표 : 비전 - 언어 과제에서 더 나은 성능을 내는 멀티 모달 기반 모델을 학습하는 것

다운스트림 태스크에 따라 다양한 모델 구조 제안되어 왔음.

이중 인코더 구조(dual-encoder architecture, Radford et al., 2021; Jia et al., 2021)
융합 인코더 구조(fusion-encoder architecture, Tan & Bansal, 2019; Li et al., 2021)
인코더-디코더 구조(encoder-decoder architecture, Cho et al., 2021; Wang et al., 2021b; Chen et al., 2022b
통합 트랜스포머 구조(unified transformer architecture, Li et al., 2022; Wang et al., 2022b)

시간이 지나면서 몇 가지 검증된 방식으로 수렴

대표적 :
이미지 - 텍스트 대조학습 (image-text contrastive learning, Radford et al., 2021; Yao et al., 2022; Li et al., 2021; 2022)
이미지-텍스트 매칭(image-text matching, Li et al., 2021; 2022; Wang et al., 2021a)
(마스킹된) 언어모델링(masked language modeling, Li et al., 2021; 2022; Yu et al., 2022; Wang et al., 2022b)

end to end로 학습된 모델은 LLM(대형언어모델, Brown et al., 2020; Zhang et al., 2022; Chung et al., 2022) 처럼 이미 학습된 단일 모달 모델을 유연하게 활용하는 데 한계가 존재함

Modular vision-language pre-training

pre-trained 모델을 그대로 두고 VLP 과정에서 고정시켜 사용하는 방법들이다.

일부 방법들은 이미지 인코더를 고정함.
- 초기 연구에선, 객체 감지기(object detector)를 고정해서 시각적 특성을 추출했고(Chen et al., 2020; Li et al., 2020; Zhang et al., 2021)
- 최근은, LiT(Zhai et al., 2022) 모델이 CLIP 사전학습을 위한 이미지 인코더를 고정해서 사용한다(Radford et al., 2021)

또 다른 방법에선, 언어모델 (LLM)을 고정시켜, LLM의 지식을 활용해 이미지-텍스트 생성 (vision to language generation) 태스크에 사용 (Tsimpoukelli et al., 2021; Alayrac et al., 2022; Chen et al., 2022a; Mañas et al., 2023; Tiong et al., 2022; Guo et al., 2022

LLM 고정해서 사용할 때의 주요 과제는 시각적 특성을 텍스트 공간에 정렬(align)하는 것이다.
Frozen(Tsimpoukelli et al., 2021) 에서는 이미지 인코더의 출력을 LLM의 soft prompt로 직접 사용하는 방식으로 이를 해결했다.
Flamingo(Alayrac et al., 2022)는 LLM에 cross-attention layer를 추가해서 시각적 특성을 주입한다.

-> 이때 BLIP-2는 고정된 이미지 인코더와 고정된 LLM을 모두 사용하여 비전 - 언어 태스크에서 더 낮은 계산 비용으로 더 뛰어난 성능

Method

1. 고정된 단일 모달 모델

2. 두 모달리티 간의 차이를 연결하기 위해, 두 단계로 사전학습된 Q-Former (Quering Transformer)라는 구조 제안

고정 이미지 인코더로 비전 - 언어 표현 학습(vision-language representation learning) 단계
고정 LLM으로 비전-언어 생성 학습 (vision to language generative learning) 단계

Model Architecture

Q-Former는 고정된 이미지 이놐더와 고정된 LLM 사이의 간극을 연결하는 학습 가능한 모듈

이미지 인코더에서 입력 이미지 해상도와 무관하게 고정된 개수의 출력 특성을 추출

Q-Foremr는 두 개의 트랜스포머 서브 모듈로 구성 (둘 다 같은 self-attention layer를 공유)

이미지 transformer : 고정된 이미지 인코더와 상호작용하며 시각 특성을 추출
텍스트 transformer : 텍스트 인코더이자 텍스트 디코더로 동작

학습 가능한 쿼리 임베딩 여러 개를 생성하여 이미지 트랜스포머의 입력으로 사용

< 학습 가능한 쿼리 임베딩이란 >
쿼리 임베딩 : transformer의 입력으로 쓰임
-> Q-Former가 이미지 피처와 쿼리 임베딩을 함께 입력 받는데
-> 각 쿼리 임베딩에 대해 이미지에서 정보를 추출함

즉, 모델이 목적에 맞게, 이미지에서 어떤 정보를 추출해야 할 지 스스로 배우는 벡터

쿼리들은 self-attention으로 상호 작용, 고정된 이미지 특성과는 cross-attention layer를 통해 상호작용

사전 학습 태스크에 따라 서로 다른 self-attention 마스크를 적용해서 쿼리 텍스트 상호작용을 조절

Q-Former는 BERT_base(Devlin et al., 2019)의 사전학습 가중치로 초기화 (초기화에도 기준이 있나?)

cross-attention layer만 랜덤하게 초기화

Q-Former는 총 1억 8,800만(188M) 파라미터로 구성된다. 쿼리도 모델 파라미터로 간주

실험에서는 32개의 쿼리를 사용했고, 각 쿼리의 차원은 768이다(Q-Former의 히든 차원과 동일)

병목 구조(bottleneck architecture)는 쿼리들이 텍스트와 가장 관련성 높은 시각 정보를 뽑아내도록 유도

Image-Text matching (Bi-directional self-attention mask)
- 이미지와 텍스트가 서로 맞는 짝인지 분류
- 전체 멀티 모달 토큰이 상호작용하며 짝 맞추기 학습
Image-Grounded Text Generation (multi modal causal mask)
- 이미지 기반 텍스트 생성
- 이미지를 쿼리 임베딩이 요약해서 전달, 텍스트는 오토리그레시브로 생성 (다음 단어는 이전 정보만 사용)
Image-Text Contrastive learning (uni-modal self-attention mask)
- 이미지와 텍스트의 임베딩 공간을 서로 잘 구분되게 맞추는 contrastive 학습
이미지 설명
- Q : Query Token Position (학습 가능한 쿼리 임베딩)
- T : Text Token Position (텍스트 임베딩)
- 흰색 : 정보 교환 가능
- 회색 : 정보 차단

'Dacon' 카테고리의 다른 글

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models #3 (0)	2025.07.07
[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction) (0)	2025.07.02