
Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking, Lorenzo Vaquero et al., 2024 을 읽고 요약, 정리한 내용입니다.
github : https://github.com/lorenzovaquero/BUSCA
◼️ Abstract
- 문제
- Tracking-by-Detection 방식은 프레임마다 detection→association을 하지만 객체 가림 등으로 인해 detector가 객체를 놓치는 프레임에서 tracker가 추적을 못해 track이 멈추거나 끊김
- 제안
- 기존 online tracking-by-detection tracker 위에 얹어 쓰는 plug-in 식 모듈로 과거 결과를 수정하지 않고 미래 프레임도 보지 않는 완전 online 설정에서 놓친 객체를 계속 추적하고자 함
- 아이디어
- 주변 track, motion, 학습 토큰으로 proposals을 만들고 decision transofrmer가 시각+시공간 정보를 함께 반영 해 track을 어디로 이어갈지 선택
- tracker와 독립적으로 합성 데이터만으로 학습
- 결과
- 5개의 tracker에서 일관된 성능 향상 및 3개의 benchmark에서 새로운 baseline SOTA를 달성
◼️ Introduction
online Multi of Tracking의 대세인 Track-by-Detection은 간단하고 효율적이지만, 탐지 미스가 발생하면 트랙이 쉽게 끊기거나 종료됨.
실제로 MOT17 val에서 YOLOX 기준 17%가 여전히 미검출 되며 이로 인해 MOTA 손실이 큼.
현재 online tracker는 미검출 순간에 tarck이 멈추는 경향이 있어 이를 해결하기 위해 일부는 과거를 사후 보간/수정(오프라인)하여 연속성을 복원하고자 함. 하지만 그러한 방법들은 MOTChallenge의 ‘온라인’ 정의(“각 프레임에서 즉시 결과가 확정”)에 비춰 보면 오프라인으로 분류되기 때문에 실시간 적용성 및 비교 가능성이 떨어짐.
BUSCA(Building Unmatched trajectorieS Capitalizing on Attention)는 완전 온라인으로 이 문제를 다룸.
해당 논문의 기여는 아래와 같음
- 완전 온라인 프레임워크
- multi-choice question-answering tasks에 의한 Decision Transformer
- 이웃/모션/학습 토큰을 쓰는 proposals Generator
- Spatiotemporal Encoder(STE)
- 학습은 합성 데이터만 사용
◼️ Related Work
- End_to-End MOT
- detection, tracking, matching을 하나의 통합된 아키텍쳐로 학습하는 방법
- joint tracking이 까다로우며 Tracking-by-Detection 성능보다 좋지 못함
- Tracking-by-Detection(TbD)
- object detection과 data association으로 아키텍쳐 분리
- 다양한 detector와 연결법을 유연하게 조합 가능
- 미검출에 매우 취약
- Trajectory Continuity
- Consistency(일관성)
- 프레임 별 헝가리안 매칭으로 detection-track 연결
- Continuity(연속성)
- 선형 보간, 가우시안 스무딩 보간으로 후처리(오프라인)
- 과거 예측을 수정하거나 미래 프레임을 참고하기 때문에 본질적으로 온라인이 아닌 오프라인 tracker
- Consistency(일관성)
- BUSCA
- 어떤 온라인 TbD 트래커 위에도 얹을 수 있는 프레임워크
- 완전 온라인 방식에서 연속성과 일관성을 동시에 강화
◼️ TbD in Nutshell
한 프레임의 탐지 집합 D(좌표, 외형, 스코어)와 과거 관측들로 구성된 활성 트랙 집합 T 사이에 비용 행렬 (기하/외형)을 만들고 헝가리안 매칭으로 할당
매칭 실패 트랙은 일시 정지되고, 많은 트래커가 이후 오프라인 보간으로 비는 구간을 메움
→ BUSCA는 이 정지된 트랙을 대상으로 동작
◼️ BUSCA : Finding Objects without Detections
- 추적이 끊어진 track을 탐지 없이 매칭 후 추적을 이어가도록 하는 것이 목적
- 추적이 끊어진 track을 이어갈 후보(Proposals)를 3종류로 만듦
- B(모션 예측), C(이웃 context), L(학습 토큰)
- Decision Transofrmer가 track과 proposals을 다지선다 문제로 풀어 최적의 후보를 선택
- 후보 선택 시 STE로 시간, 크기, 거리를 상대 표현으로 넣어 모션, 외형의 상호작용을 반영 하도록 함
- Decision Transformer
- multiple-choice question-answering task(다지선다)로 탐지 되지 않은 트랙을 유지할지, 정지할지를 결정할 수 있음
- 질문(question)은 트랙이고 보기(options)는 proposals의 집합(외형, 기하 좌표로 구성)
- 질문 하나에 옵션이 여러 개라서 다지선다 task
- 트랙에 어떤 proposals을 매칭할지 결정해 할당 집합A을 형성하는 정답을 찾는 것이 네트워크의 목표
- 서로 다른 proposals과 하나의 트랙을 입력으로 받아 가장 높은 확률의 최적 매칭(정답)을 내 놓는 transformer 기반 구조로 탐지 되지 않은 객체의 track을 유지하고자 함

- decision transformer는 L층 인코더로 구현되어 입력 I를 받음
- 입력에는 해당 track의 과거 관측도 포함됨
- 입력을 이루는 각 요소(토큰)에 대해 외형 정보는 합성곱 백본을 통해 저차원으로 사상되고 이후 시공간 인코딩(STE)을 사용해 기하 정보와 융합됨
- → transformer는 모션과 외형 사이의 복잡한 관계를 추론할 수 있게 됨
- decision transformer 내부에서 입력 토큰들은 서로 self-attention으로 수행해 track과 가장 관련된 특징이 강화된 정제 토큰을 얻게 됨
- 이후 proposals 집합의 각 요소들은 MLP에 들어가 토큰 당 1개의 logit을 출력함
- MLP는 share-weight라서 입력 크기에 구애받지 않아서 proposal 개수가 가변이어도 됨
- softmax를 거쳐 track이 각 proposals에 할당될 확률을 얻고 최대 확률을 찾아 할당 집합 A를 결정함
- 선택된 항목이 후보 proposal이라면 track을 갱신하고 그렇지 않으면 정지시킴
- 이 과정을 매 프레임 즉시 수행하기 때문에 fully-online framework임

- STE - spatiotemporal encoding
- 관측들 사이의 관계를 모델링하고 이 정보를 시각 특징과 융합해 BUSCA가 복잡한 관계를 효과적으로 학습하게 함
- STE가 transformer에 쓰이는 positional encoding을 대체하는 것
- Interplay mapping
- visual transformer에서 쓰이는 기존 인코딩은 절대값에 의존해 다양한 프레임 크기를 다룰 때 보간에 의존하게 만들고 적응성을 저하시킴
- 이를 해결하기 위해 앵커를 기준으로 상대적 상호작용을 모델링 하는 새로운 interplay mapping 도입
- 앵커를 track의 마지막 관측의 좌표(xywh)와 타임스탬프로 두어 각 토큰에 대해 시간, 크기, 거리로 이루어진 시공간 임베딩을 계산하게 됨
- visual transformer에서 쓰이는 기존 인코딩은 절대값에 의존해 다양한 프레임 크기를 다룰 때 보간에 의존하게 만들고 적응성을 저하시킴
- Embedding Projection
- 입력 토큰들과 track 사이의 interplay mapping을 구한 뒤에 이 표현을 transformer와 시각 특징에 모두 호환되도록 만드는 과정이 필요
- 기존 sin/cosin position encoding을 3차원(시간, 크기, 거리)으로 확장해 joint 시공간 인코딩을 정의함
→ 마지막 관측 box를 앵커로 잡은 후 현재 코튼과 앵커의 시간, 크기, 거리 차이를 구해 그 차이를 sin/cosin으로 펄쳐 transformer 채널에 맞춤
⇒ 이렇게 만든 STE를 시각 특징과 더해 토큰 임베딩으로 쓰면 BUSCA가 후보 중 무엇이 맞는지 더 잘 고르게 됨