MvMHAT: Self-supervised Multi-view Multi-Human Association and Tracking, Yiyang Gan, et al., 2021 을 읽고 정리, 요약한 글입니다.
github : https://github.com/realgump/MvMHAT?tab=readme-ov-file
◼️ Abstract
Multi-view Multi-human association and tracking(MvMHAT)은 각 뷰에서 시간 경과에 따른 사람 그룹을 추적하고 동시에 여러 뷰에서 동일한 사람을 식별하는 것을 목표로 한다. 시간 경과에 따른 사람 연관성만 고려하는 이전의 multiple object tracking(MOT) 및 multi-target multi-camera tracking(MTMCT) 작업과 달리, MvMHAT은 교차 뷰와 시간 경과 데이터 연관성을 모두 공동으로 달성한다.
본 논문은 self-supervised learning framework로 이 문제를 모델링하고 end-to-end network를 활용하여 이 문제를 해결한다. 특히 symmetric-similarity loss와 transitive-similarity loss 등 두가지 self-supervised learning loss들이 설계된 spatial-temporal association network를 제안하여 시간 경과에 따른 여러 사람의 연관성과 뷰 간 연관성을 매번 확인한다.
또한, 다양한 알고리즘의 학습과 테스트를 위한 새로운 대규모 벤치마크를 구축하여 MvMHAT에 대한 연구를 촉진한다.
◼️ MvMHAT
MvMHAT과 MTMCT는 모두 MOT 작업에서 비롯되지만 약간의 차이가 있다.
1. 문제 정의가 다름.
MTMCT는 시간적 추적 외에도 ranking 문제인 사람 재식별을 처리하는 것을 목표로 한다. 이와 달리 MvMHAT은 분류 문제인 multi-human matching에 중점을 둔다.
2. 서로 다른 카메라 설정을 사용함.
MTMCT는 시야각(FOV)이 겹치지 않는 넓은 영역의 여러 사이트에 분산된 여러 대의 카메라를 사용하지만 MvMHAT은 동일한 장면을 커버하는 FOV가 겹치는 multi-view all-around 카메라를 사용한다.
본 논문에서는 (임의의) 여러 대의 카메라가 서로 다른 시점에서 장면을 관찰하는 보다 일반적인 설정에 초점을 맞춘. 또한 본 연구와 관련된 연구들은 모두 교차 뷰 연관에만 초점을 맞추고 있으며 시간 경과에 따른 tracking은 포함하지 않는다.
▪️ Method
그림 2에서 볼 수 있듯이 multi-view video sequence는 장면에 등장하는 subject의 전방위적이고 시시각각 변하는(all-around and time-varying) appearance를 제공한다.
동일한 인물이 pairwise view 또는 pairwise frame에 나타나면 symmetric-similarity을 나타내고 서로 다른 시점 및 시간 간의 주기적 일관성을 보여준다.
이를 통해 본 논문은 시간 경과 및 교차 시점 subject similarity을 확립하기 위한 self-supervised 능력을 발견할 수 있었다.
- Spatial-Temporal Association Network
spatial-temporal association network는 annotation이 없는 비디오 시퀀스를 입력으로 받아 self-supervised 방식으로 연관성에 사용되는 subject similarity를 학습한다.
구체적으로 그림 2와 같이 𝑣번째 시점 영상에서 𝑡시점의 영상 프레임이 주어지면 먼저 human detector를 적용하여 이 프레임에 있는 모든 subject B𝑣𝑡를 얻는다. detection 된 subject를 가지고 Φ로 표시되는 feature extraction network를 적용하여 모든 subject에 대한 feature representation E𝑣𝑡 = Φ(B𝑣𝑡)를 얻는다(여기서 𝑁𝑣𝑡 는 𝑡 시점에 𝑣 view에 있는 subject의 수를 나타내고, 𝐷는 각 subject에 대한 feature의 차원을 나타냄).
각 프레임에서 추출된 feature를 사용하여 프레임 간 및 시간에 따른 subject similarity 및 연관성을 정의할 수 있다.
- New Association and Tracking Scheme
Spatial-Temporal Association Network와 Self-supervised Learning Loss를 사용하면 tracking 및 연관 레이블 없이도 동영상을 학습할 수 있다.
Inference 단계에서는 연관 및 tracking 작업을 공동으로 처리하는 새로운 방식을 제안한다.
학습 단계와 달리 공간적, 시간적 연관성의 매칭 행렬을 계산한 후 Hungarian Algotithm을 사용하여 순열 행렬 P ∈ {0, 1}을 구한. 제안된 MvMHAT 방식은 알고리즘 1에 요약된다.
특히 human ID assignment 전략의 경우 예제를 통해 설명할 수 있다.
𝑣1을 볼 때, 𝑃라는 사람이 𝑡1 시점에 처음 나타났다가 𝑡2 시점에 사라졌다가 𝑡3 시점에 다시 나타난다고 가정하면, 이 경우, 𝑡1에서 알고리즘 1을 사용하여 𝑃에게 새 ID를 할당하고 새 tracklet을 초기화 한다.
𝑡2에서 일치하지 않는 tracklet을 𝑣1 view에서 'sleep'으로 표시한. 여기서 𝑣1의 target 𝑃의 tracklet은 중단되지만 𝑃의 multi-view tracklet은 다른 view에 계속 표시되므로 유지된다.
𝑡3에서는 multi-view subject association 결과를 사용하여 𝑃을 𝑣1 view의 잠자는 tracklet과 일치시킨다. 이는 𝑃가 오랫동안 사라질 경우 지속적으로 tracking하기 어려운 기존 MOT보다 낫다. 𝑃가 다시 나타나면 일반적으로 새 ID가 할당되기 때문이다.
하지만 이 방법의 한계로 𝑡3에서 cross view 연결 결과가 잘못되면 잘못된 tracking 결과를 초래할 수 있다.
- Training stage & Inference stage
학습 단계에서는 서로 다른 두 시점의 모든 view에 걸친 프레임을 네트워크의 입력 그룹으로 간주하고 전체 비디오를 따라 서로 다른 시점의 모든 프레임을 탐색한다.
학습에는 주석이 달린 subject detection을 사용하고 inference에는 Detectron의 결과를 사용한다. 모든 실험에서 backbone network로는 1,000-dimension feature의 출력을 가진 ResNet50이 사용된다.
Inference 단계에서는 시간 경과에 따른 subject 연관성을 위해 Kalman filtering도 MOT algorithm DeepSort에 따라 적용한다.
제안한 네트워크를 구현하기 위해 파이토치 백엔드를 사용하고 RTX 2080Ti GPU가 장착된 컴퓨터에서 실행한다. 네트워크는 8,700개의 프레임 그룹을 10epoch 미만 동안 초기 학습률 10-5로 8,700개 그룹을 학습시켰으며, inference 속도는 30 FPS 이상이다.
논문을 읽은 후 정리하고 요약한 글입니다. 때문에 해당 포스팅에 대한 의견 제시 및 오타 정정은 언제나 환영입니다. 늦더라도 댓글 남겨주시면 확인하겠습니다.