Overman

고정 헤더 영역

글 제목

메뉴 레이어

Overman

메뉴 리스트

  • 홈
  • 분류 전체보기 (88)
    • 자연어처리 (7)
    • 알고리즘, 자료구조 (14)
    • Django (1)
    • Economic discord bot 만들기 (4)
    • 기술 면접 대비 매일메일 (32)
    • 데이터사이언스 (2)
    • 음성인식 (6)
    • FastAPI (6)
    • 맛집 (1)
    • Serendi (11)
    • Dacon (3)
    • 자격증 (1)

검색 레이어

Overman

검색 영역

컨텐츠 검색

Dacon

  • [Dacon] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models #3

    2025.07.07 by grizzly

  • [Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #2

    2025.07.07 by grizzly

  • [Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction)

    2025.07.02 by grizzly

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models #3

Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder -> 이전 포스팅 된 3가지 학습 목표에 대하여 추가 설명1. Image-Text contrastive Learning : 이미지 - 텍스트 대비 학습목적 : 이미지, 텍스트 표현 정렬 (정보 최대화 - 표현 살짝 이해 안감)양성 쌍의 이미지 - 텍스트 유사도를 음성 쌍들과 대비이미지 트랜스포머의 쿼리 출력 z와 텍스트 트랜스포머의 [CLS] 토큰 출력 t를 정렬여러 쿼리 출력 중 텍스트와 가장 높은 유사도를 가진 것을 선택쿼리 출력 중 텍스트와 유사도가 높다?쿼리 = 이미지 정보 / 텍스트이미지 정보와 유사도가 높은 텍스트를 고른다실제 구현배치 내에 이미지 - 텍스..

Dacon 2025. 7. 7. 15:04

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #2

Related Work목표 : 비전 - 언어 과제에서 더 나은 성능을 내는 멀티 모달 기반 모델을 학습하는 것 다운스트림 태스크에 따라 다양한 모델 구조 제안되어 왔음.이중 인코더 구조(dual-encoder architecture, Radford et al., 2021; Jia et al., 2021)융합 인코더 구조(fusion-encoder architecture, Tan & Bansal, 2019; Li et al., 2021)인코더-디코더 구조(encoder-decoder architecture, Cho et al., 2021; Wang et al., 2021b; Chen et al., 2022b통합 트랜스포머 구조(unified transformer architecture, Li et al.,..

Dacon 2025. 7. 7. 14:25

[Dacon] BLIP-2: Bootstrapping Language-Image Pre-trainingwith Frozen Image Encoders and Large Language Models #1 (Abstract - Introduction)

Abstract현재 상황의 문제점 : Vision - Language 의 사전학습 비용이 높음해결 : BLIP-2를 제안해결 방법 : 미리 학습된 이미지 인코더와 대형 언어 모델을 조합하여 Vision - Language 사전학습을 부트 스트랩함.(Bootstrap : 이미 학습된 자료를 활용하여 새로운 방식 제안) 고정된 이미지 인코더로부터 Vision - Language 표현 학습을 Bootstrap한다.고정된 언어 모델로부터 Vision to Langauge 생성 학습을 Bootstrap한다.BLIP-2는 기존 방법들에 비해 훨씬 적은 학습 가능 파라미터를 가지고 Vision - Langauge task에서 좋은 성능Introduction비전과 자연어 처리 교차점에 위치하므로, 서로의 분야에서 잘 ..

Dacon 2025. 7. 2. 19:16

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
Overman © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바