상세 컨텐츠

본문 제목

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #2

Dacon

by grizzly 2025. 7. 7. 14:25

본문

Related Work

목표 : 비전 - 언어 과제에서 더 나은 성능을 내는 멀티 모달 기반 모델을 학습하는 것

 

다운스트림 태스크에 따라 다양한 모델 구조 제안되어 왔음.

  • 이중 인코더 구조(dual-encoder architecture, Radford et al., 2021; Jia et al., 2021)
  • 융합 인코더 구조(fusion-encoder architecture, Tan & Bansal, 2019; Li et al., 2021)
  • 인코더-디코더 구조(encoder-decoder architecture, Cho et al., 2021; Wang et al., 2021b; Chen et al., 2022b
  • 통합 트랜스포머 구조(unified transformer architecture, Li et al., 2022; Wang et al., 2022b)

시간이 지나면서 몇 가지 검증된 방식으로 수렴

  • 대표적 :
  • 이미지 - 텍스트 대조학습 (image-text contrastive learning, Radford et al., 2021; Yao et al., 2022; Li et al., 2021; 2022)
  • 이미지-텍스트 매칭(image-text matching, Li et al., 2021; 2022; Wang et al., 2021a)
  • (마스킹된) 언어모델링(masked language modeling, Li et al., 2021; 2022; Yu et al., 2022; Wang et al., 2022b)

end to end로 학습된 모델은 LLM(대형언어모델, Brown et al., 2020; Zhang et al., 2022; Chung et al., 2022) 처럼 이미 학습된 단일 모달 모델을 유연하게 활용하는 데 한계가 존재함

 

Modular vision-language pre-training

pre-trained 모델을 그대로 두고 VLP 과정에서 고정시켜 사용하는 방법들이다.

  • 일부 방법들은 이미지 인코더를 고정함.
    • 초기 연구에선, 객체 감지기(object detector)를 고정해서 시각적 특성을 추출했고(Chen et al., 2020; Li et al., 2020; Zhang et al., 2021)
    • 최근은, LiT(Zhai et al., 2022) 모델이 CLIP 사전학습을 위한 이미지 인코더를 고정해서 사용한다(Radford et al., 2021)

또 다른 방법에선, 언어모델 (LLM)을 고정시켜, LLM의 지식을 활용해 이미지-텍스트 생성 (vision to language generation) 태스크에 사용 (Tsimpoukelli et al., 2021; Alayrac et al., 2022; Chen et al., 2022a; Mañas et al., 2023; Tiong et al., 2022; Guo et al., 2022

  • LLM 고정해서 사용할 때의 주요 과제는 시각적 특성을 텍스트 공간에 정렬(align)하는 것이다.
  • Frozen(Tsimpoukelli et al., 2021) 에서는 이미지 인코더의 출력을 LLM의 soft prompt로 직접 사용하는 방식으로 이를 해결했다.
  • Flamingo(Alayrac et al., 2022)는 LLM에 cross-attention layer를 추가해서 시각적 특성을 주입한다.

-> 이때 BLIP-2는 고정된 이미지 인코더와 고정된 LLM을 모두 사용하여 비전 - 언어 태스크에서 더 낮은 계산 비용으로 더 뛰어난 성능

 

Method

1. 고정된 단일 모달 모델

2. 두 모달리티 간의 차이를 연결하기 위해, 두 단계로 사전학습된 Q-Former (Quering Transformer)라는 구조 제안

  1. 고정 이미지 인코더로 비전 - 언어 표현 학습(vision-language representation learning) 단계
  2. 고정 LLM으로 비전-언어 생성 학습 (vision to language generative learning) 단계

Model Architecture

Q-Former는 고정된 이미지 이놐더와 고정된 LLM 사이의 간극을 연결하는 학습 가능한 모듈

이미지 인코더에서 입력 이미지 해상도와 무관하게 고정된 개수의 출력 특성을 추출

Q-Foremr는 두 개의 트랜스포머 서브 모듈로 구성 (둘 다 같은 self-attention layer를 공유)

  1. 이미지 transformer : 고정된 이미지 인코더와 상호작용하며 시각 특성을 추출
  2. 텍스트 transformer : 텍스트 인코더이자 텍스트 디코더로 동작

학습 가능한 쿼리 임베딩 여러 개를 생성하여 이미지 트랜스포머의 입력으로 사용

< 학습 가능한 쿼리 임베딩이란 >
쿼리 임베딩 : transformer의 입력으로 쓰임
-> Q-Former가 이미지 피처와 쿼리 임베딩을 함께 입력 받는데
-> 각 쿼리 임베딩에 대해 이미지에서 정보를 추출함

즉, 모델이 목적에 맞게, 이미지에서 어떤 정보를 추출해야 할 지 스스로 배우는 벡터

쿼리들은 self-attention으로 상호 작용, 고정된 이미지 특성과는 cross-attention layer를 통해 상호작용

사전 학습 태스크에 따라 서로 다른 self-attention 마스크를 적용해서 쿼리 텍스트 상호작용을 조절

Q-Former는 BERT_base(Devlin et al., 2019)의 사전학습 가중치로 초기화 (초기화에도 기준이 있나?)

cross-attention layer만 랜덤하게 초기화

 

Q-Former는 총 1억 8,800만(188M) 파라미터로 구성된다. 쿼리도 모델 파라미터로 간주

실험에서는 32개의 쿼리를 사용했고, 각 쿼리의 차원은 768이다(Q-Former의 히든 차원과 동일)

 

병목 구조(bottleneck architecture)는 쿼리들이 텍스트와 가장 관련성 높은 시각 정보를 뽑아내도록 유도

Q-Former는 3가지 대표적 학습 목표로 학습

  • Image-Text matching (Bi-directional self-attention mask)
    • 이미지와 텍스트가 서로 맞는 짝인지 분류
    • 전체 멀티 모달 토큰이 상호작용하며 짝 맞추기 학습
  • Image-Grounded Text Generation (multi modal causal mask)
    • 이미지 기반 텍스트 생성
    • 이미지를 쿼리 임베딩이 요약해서 전달, 텍스트는 오토리그레시브로 생성 (다음 단어는 이전 정보만 사용)
  • Image-Text Contrastive learning (uni-modal self-attention mask)
    • 이미지와 텍스트의 임베딩 공간을 서로 잘 구분되게 맞추는 contrastive 학습
  • 이미지 설명
    • Q : Query Token Position (학습 가능한 쿼리 임베딩)
    • T : Text Token Position (텍스트 임베딩)
    • 흰색 : 정보 교환 가능
    • 회색 : 정보 차단

 

관련글 더보기