[논문 리뷰] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions, Chan Hur et al., 2025

이미지 영역: ALIP(이미지-텍스트-생성캡션 삼중 유사도), LaCLIP(재작성된 설명으로 CLIP 학습 보강)
비디오 영역: CoVR(비디오-캡션 교차 어텐션), Cap4Video(영상 전체를 요약한 단일 문장 캡션의 공동 어텐션)

2026. 6. 15. 00:59

티스토리툴바