상세 컨텐츠

본문 제목

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction)

Dacon

by grizzly 2025. 7. 2. 19:16

본문

Abstract

현재 상황의 문제점 : Vision - Language 의 사전학습 비용이 높음

해결 : BLIP-2를 제안

해결 방법 : 미리 학습된 이미지 인코더와 대형 언어 모델을 조합하여 Vision - Language 사전학습을 부트 스트랩함.

(Bootstrap : 이미 학습된 자료를 활용하여 새로운 방식 제안)

 

  • 고정된 이미지 인코더로부터 Vision - Language 표현 학습을 Bootstrap한다.
  • 고정된 언어 모델로부터 Vision to Langauge 생성 학습을 Bootstrap한다.
  • BLIP-2는 기존 방법들에 비해 훨씬 적은 학습 가능 파라미터를 가지고 Vision - Langauge task에서 좋은 성능

Introduction

비전과 자연어 처리 교차점에 위치하므로, 서로의 분야에서 잘 개발된 단일 모달 모델을 적극적 활용하는 것이 이상하지 않음.

  • 사전 학습된 비전 모델은 고품질의 시각적 표현
  • 사전 학습 언어 모델은 강력한 언어 생성 능력과 Zero-shot 전이 학습 능력을 제공 

Zero shot learning : 모델은 본 적이 없는 클래스에 대해 레이블이 지정된 예제를 학습하지 않고 학습 후 예측을 요청받습니다.

(출처 : https://www.ibm.com/kr-ko/think/topics/zero-shot-learning )

 

망각 문제 방지(파인튜닝 등을 진행하여 성능을 높이기 위하여 학습을 진행할 시 원래의 것을 잊어버림)를 위하여

  • 단일 모달 사전 학습 모델들은 사전 학습 과정에서 파라미터를 고정 (이미지 인코더와 언어 생성 디코더 모델 모두 파라미터 고정)

사전 학습 단일 모델 두 가지를 효과적으로 활용하기 위해서는 서로 다른 형태의 정보를 잘 연결하고 대응시키는 것이 중요함

(이미지 - 텍스트 등)

  • 이 부분에서 LLM의 경우 사전 학습 단계에서 이미지를 접하지 않았기 때문에 Vision-Langauge 모델 달성이 어렵다.

기존의 방법들(Frozen(Tsimpoukelli 외, 2021), Flamingo(Alayrac 외, 2022))에 의존하였으나, 모달리티 간 격차 해소에 부족했음.

 

이를 해결 하기 위하여

두 단계의 사전 학습 전략으로 사전 학습된 Querying transformer (Q-Former)를 제안

  • Q-Former는 학습 가능한 쿼리 벡터 집합을 활용하여, 고정된 이미지 인코더에서 시각적 특징을 추출
  • Q-Former는 고정된 이미지 인코더와 고정된 LLM 사이에서 정보 병목 역할을 함.
    • LLM이 원하는 텍스트를 생성할 수 있도록 가장 유용한 시각적 특징 전달
  • 사전 학습 단계에서 Q-Former가 텍스트와 가장 밀접한 시각적 표현을 학습하도록 Vision-Language 표현 학습 수행
  • 두 번째 사전 학습 단계에서 Q-Former가 텍스트와 가장 밀접한 시각적 표현을 해석할 수 있도록 Vision-Lanauge 언어 생성 학습 수행

즉, Q-Former는 쿼리 벡터 집합을 기반으로 이미지 인코더 내에서 시각적 특징을 추출하고, LLM에게 Vision -> Langauge로 변환하는 과정을 갖는다. 그것을 기반으로 LLM 모델에게 질의 (텍스트 입력) 하는 형태이다.

 

그럼 파인튜닝 시 할 수 있는 부분은 Q-Former를 학습시키는 것이다.

그림으로도 확인 가능하다.

단순하게 정리하면 Q-Former는 Image-Encoder와 LLM 사이를 연결해주는 작은 모델이다.

 

 

관련글 더보기