MSR-VTT

ML & DL

Benchmark | MSR-VTT Dataset이란?

비디오와 언어를 다루는 논문을 한 편이라도 읽어본 사람이라면 거의 무조건 마주치는 이름이 있다. MSR-VTT.CLIP4Clip이든, X-CLIP이든, 최근의 InternVideo든, 성능 비교표 어딘가에는 항상 MSR-VTT의 R@1, R@5, R@10 숫자가 박혀 있다.이 데이터셋은 처음부터 검색(retrieval)용으로 만들어진 게 아니라 영상을 보고 자연어로 설명을 만들어내는 task인 비디오 캡셔닝(video captioning) 데이터셋이었다. MSR-VTT란?MSR-VTT(Microsoft Research Video to Text)는 2016년 CVPR에서 Microsoft Research가 공개한 비디오-언어 데이터셋이다. 이름 그대로 "비디오와 텍스트를 잇는 다리"를 만들기 위해 설계됐다..

토오오끼
'MSR-VTT' 태그의 글 목록