[Dacon] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models #3

Dacon

by grizzly 2025. 7. 7. 15:04

Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

-> 이전 포스팅 된 3가지 학습 목표에 대하여 추가 설명

1. Image-Text contrastive Learning : 이미지 - 텍스트 대비 학습

목적 : 이미지, 텍스트 표현 정렬 (정보 최대화 - 표현 살짝 이해 안감)
- 양성 쌍의 이미지 - 텍스트 유사도를 음성 쌍들과 대비
- 이미지 트랜스포머의 쿼리 출력 z와 텍스트 트랜스포머의 [CLS] 토큰 출력 t를 정렬
- 여러 쿼리 출력 중 텍스트와 가장 높은 유사도를 가진 것을 선택
  - 쿼리 출력 중 텍스트와 유사도가 높다?
  - 쿼리 = 이미지 정보 / 텍스트
  - 이미지 정보와 유사도가 높은 텍스트를 고른다
실제 구현
- 배치 내에 이미지 - 텍스트 쌍을 넣어서 In-batch negative로 contrastive leaerning(유사도 최대화/최소화)
- ????

2. Image-grounded Text Generation

3. Image-Text Matching

목적 : 이미지 - 텍스트 쌍이 진짜 서로 짝인지 분류 (positive / negative)
- 쿼리 임베딩, 텍스트 임베딩이 서로 자유롭게 정보 교환
- 쿼리의 출력값을 2-class linear classifier에 넣고, 전체 쿼리별 logit을 평균내서 매칭 점수 산출
마스킹
- 쿼리, 텍스트 서로 접근 가능 (bi-directional mask)
하드 네거티브 마이닝도 사용

공통 절차

상단

하단 (약간 힌트주는 느낌?)

Bootstrap Vision to Language Generative learning from frozen llm

Model pre-training

(데이터셋 선정을 어떤 기준으로 할 지 궁금하다)

BLIP(1)와 동일: COCO, Visual Genome, CC3M, CC12M, SBU, LAION400M 등 1억 2900만 장 이상데이터 셋\
캡션 품질 향상:
- 웹 이미지에는 BLIPlarge 모델로 10개 캡션 생성
- CLIP ViT-L/14로 이미지-텍스트 유사도 기반 top-2만 사용 (품질 좋은 캡션만)

사전 학습 모델 선정

Frozen Image Encoder:
- CLIP ViT-L/14, EVA-CLIP ViT-g/14
- 마지막 레이어 대신, 두 번째 레이어 결과 사용(성능 더 좋음)
Frozen LLM:
- OPT(디코더), FlanT5(인코더-디코더)

학습 설정

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #2 (2)	2025.07.07
[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction) (0)	2025.07.02