visionlanguagemodel

논문 리뷰

[논문 리뷰] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions, Chan Hur et al., 2025

Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions, Chan Hur et al., 2025 를 읽고 요약, 정리한 글입니다. ◼️ Abstract최근 텍스트-비디오 검색에서 비전-언어 모델이 생성한 추가 캡션을 활용하는 방식이 성능 향상에 효과적임이 드러났다. 그러나 기존 모델들은 비디오에 내재된 시간적 변화를 포함한 풍부한 의미를 제대로 포착하지 못했고, 생성 모델이 만들어낸 잘못된 정보가 부정확한 검색을 유발하는 문제가 있었다.이를 해결하기 위해 본 논문은 NarVid(Narrating the Video)라는 새로운 프레임워크를 제안한다. 이 프레임워크는 프레임 단..

토오오끼
'visionlanguagemodel' 태그의 글 목록