
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions, Chan Hur et al., 2025 를 읽고 요약, 정리한 글입니다.
◼️ Abstract
최근 텍스트-비디오 검색에서 비전-언어 모델이 생성한 추가 캡션을 활용하는 방식이 성능 향상에 효과적임이 드러났다. 그러나 기존 모델들은 비디오에 내재된 시간적 변화를 포함한 풍부한 의미를 제대로 포착하지 못했고, 생성 모델이 만들어낸 잘못된 정보가 부정확한 검색을 유발하는 문제가 있었다.
이를 해결하기 위해 본 논문은 NarVid(Narrating the Video)라는 새로운 프레임워크를 제안한다. 이 프레임워크는 프레임 단위 캡션, 즉 내레이션(narration)의 정보를 다음 네 가지 방식으로 활용한다.
- 내레이션과 비디오 간 교차 모달 상호작용을 통한 특징 강화
- 무관하거나 잘못된 정보를 억제하는 쿼리 인식 적응형 필터링
- 쿼리-비디오 유사도와 쿼리-내레이션 유사도를 더한 이중 모달 매칭 점수
- 서로 다른 관점의 두 유사도를 이용한 하드 네거티브 손실
실험 결과 NarVid는 여러 벤치마크에서 최고 성능(SOTA)을 달성했다.
◼️ 서론 (Introduction)
비디오 스트리밍 플랫폼의 인기로 텍스트→비디오 검색이 중요해지고 있다.
정확한 검색을 위해서는 두 가지 난제를 해결해야 한다. ① 비전과 언어라는 이질적 데이터 간의 교차 모달리티 격차, ② 비디오 내의 시간에 따라 변하는 정보이다.
기존 연구들은 CLIP, BLIP 같은 비전-언어 사전학습 모델을 백본으로 써서 모달리티 격차를 줄였고, 트랜스포머 인코더나 3D 컨볼루션 같은 시간 모듈로 시간적 관계를 포착했다.
최근에는 비디오에서 생성한 캡션을 활용하는 연구가 등장했다.
- Cap4Video: 비디오 전체를 요약하는 비디오 단위 캡션을 사용 → 그러나 전체 영상의 맥락 변화를 반영하지 못하고, 캡션이 잘못 생성되면 성능이 떨어짐.
- EA-VTR: 프레임 단위 캡션으로 이벤트를 포착하지만, 이벤트 감지를 위한 인코더 학습에 집중할 뿐 검색에 필수적인 쿼리 기반 선택적 활용은 고려하지 않음.
본 논문은 이를 극복하기 위해 NarVid를 제안한다.
시간 순으로 얻어진 프레임 단위 캡션은 하나의 "이야기"로 볼 수 있어 내레이션이라 부른다(그림 1b).

비디오 단위 캡션과 달리 영상 전반의 다양한 객체와 속성을 포착할 수 있으며, 모든 캡션이 쿼리와 관련된 것은 아니므로 적절한 처리가 필요하다.
주요 기여:
- 생성 모델로부터 얻은 프레임 단위 캡션(내레이션)을 전략적으로 활용하는 새 프레임워크 제안
- 내레이션을 ① 특징 강화, ② 필터링, ③ 매칭 점수 보완, ④ 하드 네거티브 학습의 네 모듈에 걸쳐 종합 활용
- 4개 벤치마크에서 SOTA 달성 — MSR-VTT(52.7%), MSVD(53.1%), VATEX(68.4%), DiDeMo(53.4%)
◼️ 관련 연구 (Related Works)
◾️ 텍스트-비디오 검색
CLIP은 대규모 데이터의 대조 학습으로 멀티모달 임베딩 공간 학습이 가능함을 보였고, 이후 비디오 영역으로 확장되었다.
- CLIP4Clip: 개별 프레임 특징을 추출·집계하여 CLIP을 검색에 적용
- X-CLIP: 거시·미시 특징을 통합
- X-Pool: 어텐션으로 텍스트와 가장 관련 깊은 프레임 강조
- UATVR / T-MASS: 데이터의 변동성을 포착하는 확률적 접근 (텍스트를 확률 분포·확률적 임베딩으로 모델링)
이런 CLIP 기반 모델들은 큰 성과를 거뒀지만 여전히 비디오-텍스트 간 도메인 격차를 좁히는 데 한계가 있으며, 본 논문은 생성 모델의 보조 정보를 다양하게 활용해 이를 완화한다.
◾️ 생성 정보를 활용한 비전-언어 모델
- 이미지 영역: ALIP(이미지-텍스트-생성캡션 삼중 유사도), LaCLIP(재작성된 설명으로 CLIP 학습 보강)
- 비디오 영역: CoVR(비디오-캡션 교차 어텐션), Cap4Video(영상 전체를 요약한 단일 문장 캡션의 공동 어텐션)
그러나 이들은 주로 전역 콘텐츠에 집중해 국소적 디테일을 놓친다. EA-VTR는 프레임 단위 캡션을 쓰지만 모든 프레임-캡션 쌍을 비교해 정제되지 않은 정보가 부작용을 낳을 수 있다. 본 연구는 쿼리 인식 필터링을 포함해 프레임 단위 캡션을 전략적으로 활용하여 시간적 측면과 국소 디테일을 포착하고 도메인 격차를 줄인다.
◼️ 제안 방법 (Proposed Methods)
◾️ 전체 과정
문제 정의: 주어진 쿼리 텍스트에 대해 후보 비디오 집합 V에서 의미적으로 가장 관련 깊은 비디오를 찾는 작업으로, 쿼리 q와의 유사도 s(q,v)를 최대화하는 최적 비디오 v*를 찾는 문제.
파이프라인 (그림 2):

- 쿼리 q는 단어들과 전역 의미를 나타내는 [EOS] 토큰으로, 비디오 v는 프레임들로 인코딩
- 내레이션 생성 모듈로 각 프레임의 캡션 시퀀스 n 생성
- 내레이션·비디오 특징을 상호 공동 어텐션 + 시간 변환으로 강화
- 쿼리 인식 적응형 필터링으로 정제
- 쿼리-비디오 / 쿼리-내레이션 매칭으로 최종 유사도 산출
- 학습 시 교차 관점 하드 네거티브 손실 적용
◾️ 비디오로부터 내레이션 생성
비디오 단위 캡션은 핵심 장면 위주로 생성되어 다른 서사 흐름을 놓치고, 단일 캡션의 오류(환각 등)가 검색 성능에 큰 악영향을 준다. 이를 해결하기 위해 내레이션 개념을 제안한다. 각 프레임 f_k에 대해 대형 멀티모달 모델(LMM)을 독립적으로 적용해 캡션 c_k를 생성, 캡션 시퀀스를 만든다. 시간 순으로 배열된 캡션은 영상의 의미 변화를 언어적으로 표현한다. 특정 캡션 생성 모델에 종속되지 않아 모델·프롬프트 선택이 유연한다.
◾️ 비디오-내레이션 교차 모달 상호작용
각 캡션 c_k와 프레임 f_k를 쌍으로 묶어 공동 어텐션(co-attention) 구조로 상호 정보를 강화한다. 비디오 단위 캡션 대신 프레임-캡션 쌍을 쓰므로 특정 프레임과 그 서사적 맥락 간의 복잡한 관계를 자연스럽게 포착한다. 이후 강화된 시퀀스 특징을 시간 블록(temporal block)에 통과시켜 각 모달리티 내 시간적 관계를 포착한다. 결과는 여전히 프레임 단위 시퀀스 형태이므로 필터링을 적용할 수 있다.
◾️ 쿼리 인식 적응형 필터링
쿼리와 무관한 프레임이나 잘못된 캡션을 걸러내기 위한 모듈이다. 기존 Top-k 방식은 고정된 k를 써서 중요한 프레임을 놓치거나 무관한 프레임을 포함할 수 있다. 이를 극복하기 위해 뉴클리어스 샘플링(nucleus sampling) 기법을 도입해 핵심 프레임 수를 적응적으로 결정한다.
방식: 쿼리의 [EOS] 토큰과 각 프레임,캡션 특징 간 유사도를 계산 → 소프트맥스로 [0,1] 정규화 → 유사도가 가장 높은 특징부터 누적 유사도가 임계값 p를 넘을 때까지 하나씩 추가.
이로써 쿼리와 관련성이 높은 핵심 특징을 선택한다.
◾️ 쿼리-비디오-내레이션 매칭
거시(coarse), 미시(fine) 두 가지 세분화 수준의 매칭을 사용한다.
- 거시 매칭: 비디오, 내레이션 특징 시퀀스에 가중 풀링(가중치는 필터링 모듈의 유사도 점수)을 적용해 거시 표현을 얻고, 쿼리의 [EOS] 토큰과 코사인 유사도를 계산.
- 미시 매칭: 프레임/캡션 임베딩과 단어 임베딩 간 최대 코사인 유사도를 계산. Cap4Video 방식을 확장해 쿼리-내레이션 매칭까지 추가.
거시, 미시 점수를 평균하여 쿼리-비디오 유사도(s_qv)와 쿼리-내레이션 유사도(s_qn)를 얻고, 학습·추론에 사용한다.
◾️ 학습 및 추론
학습 목표
Contrastive loss:
배치에서 쿼리-비디오 유사도 행렬 S_qv와 쿼리-내레이션 행렬 S_qn을 계산. 텍스트-비디오 검색에 흔히 쓰이는 InfoNCE 손실을 수정하여, 모달리티 간(쿼리-비디오)과 모달리티 내(쿼리-내레이션) 두 관점 모두에서 양성, 음성 샘플 간 차이를 키운다.
Cross-view hard negative loss:
하드 네거티브는 양성과 매우 닮아 구별이 어려운 음성 샘플이다. 기존 연구는 모달리티 간 또는 모달리티 내 한쪽만 봤으나, 본 논문은 두 관점을 모두 활용한다. 각 행의 표준편차와 하이퍼파라미터 λ로 임계값을 정해 두 관점의 하드 네거티브 집합을 정의하고 합집합으로 통합, 힌지 손실 기반의 랭크 손실을 적용한다.
◾️ 추론 파이프라인
S_qv와 S_qn은 값의 범위가 다를 수 있어 단순 합산 시 내레이션 쪽이 과대평가될 수 있다. 이를 막기 위해 각 행렬을 평균·표준편차로 표준화한 후 합산해 최종 점수 행렬 S_fusion을 만든다.
◼️ 실험 결과 (Experimental Results)
◾️ 실험 설정
데이터셋: MSR-VTT(10K 비디오), MSVD(약 2K 비디오·평균 40개 캡션), VATEX(35K 클립·다국어 캡션), DiDeMo(문장들을 하나의 쿼리로 연결한 영상-문단 검색).
평가지표: R@K(높을수록 좋음), MdR·MnR(낮을수록 좋음).
구현: CLIP4Clip 기반, 비주얼 백본 ViT-B/16(분석용 ViT-B/32 추가), 내레이션 생성에 LLaVA 1.5 7B 사용. 필터링 임계값 p는 ViT-B/32에서 0.4, ViT-B/16에서 0.5. NVIDIA RTX A6000 2장 사용.
◾️ SOTA와의 비교
- MSR-VTT: 생성 정보를 안 쓴 베이스라인 CLIP4Clip 대비 모든 지표에서 큰 향상. 비디오 단위 캡션을 쓰는 Cap4Video도 두 백본 대부분 지표에서 능가. 확률적 임베딩을 쓰는 T-MASS와 비교 시 R@1은 모든 데이터셋에서 앞서지만 R@5·R@10은 다소 낮음(T-MASS의 확률적 임베딩이 매칭 쌍 수를 늘려준 효과로 분석, 향후 통합 가능).
- MSVD: 모든 지표 향상, 단 쿼리가 짧고 단순해 R@1 향상폭(+7.9%)은 상대적으로 작음. 하나의 쿼리가 여러 비디오에 매칭되는 경우도 영향.
- VATEX: 쿼리 문장이 길고 다양한 속성을 담아, 내레이션의 풍부한 정보와 잘 매칭되어 R@1 대폭 향상(+12.5%).
- DiDeMo: R@1에서 우수하지만 격차가 작음. 영상이 정적이라 내레이션의 시간 정보 효과가 줄어듦.
결론적으로 4개 벤치마크 전부에서 SOTA 달성.
◾️ 제거 실험 (Ablation Study)
- 내레이션 매칭: 추가만으로 R@1 +4.1%. 단 Cap4Video보다 약간 낮아, 단순 도입만으로는 부족하며 추가 모듈을 통한 종합 활용이 필요함을 시사.
- 교차 모달 상호작용: 공동 어텐션, 시간 블록을 통한 특징 강화가 모든 지표 향상 → 교차 모달 상호작용과 시간 정보의 중요성 확인.
- 쿼리 인식 적응형 필터링: 무관/부정확 정보 제거로 R@1 개선. 적응형 뉴클리어스 필터링(p=0.4)이 고정 Top-k(k=3,4)와 비슷한 평균 프레임 수(3.57)를 유지하면서 더 높은 정확도 달성 → 고정 방식보다 효율적.
- 교차 관점 하드 네거티브 손실: 모든 지표 향상. α=1에서 최적 → 적절한 비중의 하드 네거티브가 필요.
- 캡션 생성 모델별 영향: 전통적 이미지 캡셔너, VLM, 강력한 LMM 등 어떤 생성기를 써도 성능이 향상 → 다양한 모델에서 작동. 흥미롭게도 더 강력한 VLM은 디테일하지만 쿼리와 무관한 단어가 많은 캡션을 생성해 오히려 성능에 부정적일 수 있음.
◾️ 정성적 결과
비디오 단위 캡션은 장면 전환이 잦은 영상에서 전체 내용을 반영하지 못한다(예: 의상 주제에만 집중해 패션쇼로 오검색). 반면 NarVid의 내레이션은 의상, 다양한 스타일, 미소 표정 등 풍부한 정보를 제공해 더 정확한 결과를 얻는다.

◼️ 결론 (Conclusions)
프레임 단위 생성 캡션(내레이션)의 종합적 활용에 초점을 둔 NarVid 프레임워크를 제안했다.
시간 순으로 배열된 내레이션은 풍부한 의미 정보를 제공하며, ① 교차 모달 상호작용을 통한 특징 강화, ② 부적절한 정보 필터링, ③ 새로운 유사도·손실 함수 정의에 전략적으로 활용된다.
한계: 실용화를 위해서는 내레이션을 사전 계산, 저장하는 과정이 필요하며, 효율적 생성 기법으로 부담을 줄일 수 있다. 또한 성능 향상이 캡션 생성기의 능력에 크게 좌우되므로, 프롬프트 엔지니어링·고급 생성 기법에 대한 추가 연구가 성능을 더 높일 수 있다.