[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction)
Abstract
현재 상황의 문제점 : Vision - Language 의 사전학습 비용이 높음
해결 : BLIP-2를 제안
해결 방법 : 미리 학습된 이미지 인코더와 대형 언어 모델을 조합하여 Vision - Language 사전학습을 부트 스트랩함.
(Bootstrap : 이미 학습된 자료를 활용하여 새로운 방식 제안)
Introduction
비전과 자연어 처리 교차점에 위치하므로, 서로의 분야에서 잘 개발된 단일 모달 모델을 적극적 활용하는 것이 이상하지 않음.
Zero shot learning : 모델은 본 적이 없는 클래스에 대해 레이블이 지정된 예제를 학습하지 않고 학습 후 예측을 요청받습니다.
(출처 : https://www.ibm.com/kr-ko/think/topics/zero-shot-learning )
망각 문제 방지(파인튜닝 등을 진행하여 성능을 높이기 위하여 학습을 진행할 시 원래의 것을 잊어버림)를 위하여
사전 학습 단일 모델 두 가지를 효과적으로 활용하기 위해서는 서로 다른 형태의 정보를 잘 연결하고 대응시키는 것이 중요함
(이미지 - 텍스트 등)
기존의 방법들(Frozen(Tsimpoukelli 외, 2021), Flamingo(Alayrac 외, 2022))에 의존하였으나, 모달리티 간 격차 해소에 부족했음.
이를 해결 하기 위하여
두 단계의 사전 학습 전략으로 사전 학습된 Querying transformer (Q-Former)를 제안
즉, Q-Former는 쿼리 벡터 집합을 기반으로 이미지 인코더 내에서 시각적 특징을 추출하고, LLM에게 Vision -> Langauge로 변환하는 과정을 갖는다. 그것을 기반으로 LLM 모델에게 질의 (텍스트 입력) 하는 형태이다.
그럼 파인튜닝 시 할 수 있는 부분은 Q-Former를 학습시키는 것이다.
단순하게 정리하면 Q-Former는 Image-Encoder와 LLM 사이를 연결해주는 작은 모델이다.