SIMPLE ONLINE AND REALTIME TRACKING, Alex Bewley et al., 2017을 읽고 요약한 글입니다.
⏹️ Abstract
본 논문은 온라인 및 실시간 응용 프로그램에 대해 객체를 효율적으로 연결하는 것이 중점인 다중 객체 추적(MOT)에 대한 실용적인 접근 방식을 탐구한다. 이를 위해 detection quality는 tracking 성능에 영향을 미치는 핵심 요소로, detector를 변경하면 tracking을 최대 18.9%까지 개선할 수 있다. track 구성 요소에 칼만 필터와 헝가리안 알고리즘과 같은 기본적인 조합만 사용했음에도 불구하고, 이 접근 방식은 최첨단 온라인 tracker에 맞먹는 정확도를 달성한다. 또한 tracking 방법이 간단하기 때문에 tracker는 다른 최첨단 tracker보다 20배 이상 빠르다.
1️⃣ Introduction
본 논문은 각 프레임마다 객체가 detection 되고 bounding box로 표현되는 다중 객체 추적(MOT) 문제에 대한 tracking-by-detection framework의 lean implenemtation을 제시한다. batch 기반 tracking 접근 방식과 달리, 주로 이전 프레임과 현재 프레임의 detection만 tracker에 표시되는 online tracking을 목표로 한다.
MOT 문제는 비디오 시퀀스의 프레임 간에 detection을 연결하는 것이 목표인 data association 문제로 볼 수 있으며 data association 프로세스를 지원하기 위해 tracker는 scene에서 물체의 motion과 appearance를 모델링 하기 위해 다양한 방법을 사용한다.
첫째, Multiple Hypothesis Tracking(MHT) 및 Joint Probabilistic Data Association(JPDA)을 포함한 data association techniques의 부활(resurgence)이다.
둘째, ACF(Aggregate Channel Filter) detector를 사용하지 않는 유일한 tracker는 top ranked trakcer이며, 이는 detection quality가 다른 tracker를 방해할 수 있음을 의미한다.
또한, 가장 정확한 tracker의 속도는 실시간 애플리케이션에 비해 너무 느리기 때문에 정확도와 속도는 trade-off 관계이다. 해당 관계는 그림 1에서 뚜렷하게 나타난다.
상위 online 및 batch tracker에서 사용되는 다양한 detection의 사용과 함께 classic data association 기법이 두드러지면서, 본 논문은 MOT가 얼마나 단순할 수 있는지와 얼마나 잘 수행할 수 있는지를 탐구한다.
Occam’s Razor(오컴의 면도날 : 어떤 현상을 설명할 때 불피요한 가정을 하지 마라. 같은 현상을 설명하는 두 개의 주장이 있다면 간단한 쪽을 선택하라.)에 의해 detection 구성 요소를 벗어난 appearance feature는 tracking에서 무시되고 motion estimation과 data association에 bounding box position과 size만 사용된다. 또한, short-term 및 long-term occlusion에 의한 이슈는 매우 드물게 발생하고 복잡도가 증가하기 때문에 무시한다. object re-identification은 tracking 프레임워크에 상당한 오버헤드를 추가하므로 실시간 응용 프로그램에서 사용이 제한된다.
본 논문은 frame-to-frame association으로 효율적이고 안정적으로 MOT를 수행하는 데 중점을 둔다. detection error에 강해지기 위해 detection 문제를 직접 해결하기 위해 최신 visual object detection을 활용했으며 이는 CNN based detector인 common ACF pediestrian detector와 비교함으로써 입증한다. 또, tracking 문제의 motion 예측 및 data association 구성 요소를 처리하기 위해 두 가지 고전적이지만 매우 효율적인 방법인 칼만 필터와 헝가리안 알고리즘이 사용된다. 이는 다양한 환경 속 보행자 tracking을 위함이지만 CNN의 flexibility를 생각하면 다른 object classes에 일반화가 가능할 것이다.
2️⃣ Literature Review
전통적으로 MOT는 Multiple Hypothesis Tracking(MHT) 또는 Joint Probablisitic Data Association(JPDA) 필터를 사용했으며, 이는 object assignment에 대한 불확실성이 높을 때 결정을 지연 시킨다. 이러한 접근 방식의 combinatorial complexity(결합적 복잡성)은 tracking 된 객체의 수가 기하급수적으로 증가하여 매우 역동적인 환경에서 실시간으로 적용하기에는 비현실적이다.
최근 JPDA의 효율적인 근사화로 결합적 복잡성 문제를 해결하기 위해 visual MOT의 JPDA 공식을 재검토했다. 비슷한 연구로 각 target에 대한 appearance models을 사용하여 MHT 그래프를 제거함으로써 좋은 성능을 달성한 연구가 있다. 그러나 이러한 방법은 여전히 의사 결정을 지연 시켜 온라인 tracking에 적합하지 않다.
많은 온라인 tracking 방법은 온라인 학습을 통해 개별 객체 자체의 appearance models 또는 global model을 구축하는 것을 목표로 한다. appearance models 외에도, motion은 종종 detection을 tracklet에 연결하는 데 도움을 주기 위해 통합 되기도 한다.
detection과 tracklets이 이분(bipartite) 그래프 매칭으로 모델링 된 일대일 대응이 되는 경우라면, 헝가리 알고리즘과 같은 전역 최적해(globally optimal solutions)를 사용할 수 있다.
Geiger 외 연구진들은 two stage 프로세스로 헝가리안 알고리즘을 사용한다.
첫째, 기하학(geometry) 및 appearance 단서가 모두 결합되어 유사도 행렬(affinity matrix)을 형성하여 인접한 프레임 간의 detection을 연결하여 tracklet을 형성한다.
둘째, tracklet은 다시 기하학적 단서와 appearance 단서 모두를 사용하여 occlusion으로 인해 끊어진 trajectory를 연결하기 위해 서로 연결(bridge)된다.
이 two stage association 방법은 이 접근 방식을 batch computation(일괄 계산)으로 제한한다. 본 논문의 접근 방식은 tracking component에서 영감을 얻었지만, one stage로 association을 단순화 했다.
3️⃣ Methodology
◾ Detection
end-to-end framework로, two stage framework인 Faster R-CNN을 사용했다.
- one-stage : feature extract & region proposal
- two-stage : region proposal 내에서 object classifiaction
detection을 위한 효율적인 framework를 만들 때 두 단계 사이 parameters 공유하고 detection 성능 개선 위해 다른 architecture를 이용한 빠른 실험이 가능하도록 network architecture를 다른 어떤 architecture로 교체할 수 있다는 장점이 있다.
◾ Estimation Model
객체 모델은 target의 ID를 다음 프레임으로 전달하기 위해 사용되는 표현(representation) 모델과 움직임(motion) 모델로, 다른 객체 및 카메라 움직임과 독립적인 선형 등속 모델(linear constant velocity model)을 사용해 각 객체의 프레임 간 변위를 근사화 한다.
각 객체의 state는
이와 같이 모델링 된다.
detection이 target과 연결된 경우 검출된 bbox는 칼만 필터를 통해 속도 구성 요소를 최적화 하여 target의 상태를 업데이트 한다. detection과 target이 연결되지 않은 경우, 선형 속도 모델을 사용하여 correction(보정)없이 간단히 상태를 예측한다.
◾ Data Association
기존 target에 detection을 할당함으로써 각 target의 bbox의 geometry(bbox의 좌표값, 스케일, 비율)는 현재 프레임에서 새 위치를 예측하여 수정한다.
assignment cost matrix는 각 detection과 기존 target에서 예측된 bbox 사이의 IoU 거리를 이용해서 계산하여 추적 되고 있던 객체와 아닌 객체를 분류한다.
assignment 문제는 헝가리안 알고리즘을 사용하여 최적으로 해결한다.
detection과 target의 중첩 영역이 IoUmin보다 작을 경우 assignment를 거부하고 이때 IoUmin을 적용한다.
target이 잠깐 가려지는 경우 bounding box의 IoU 거리를 통해 암시적으로 처리 가능하다. target이 다른 객체에 가려진 경우 IoU 거리는 유사한 scale의 detection을 적절히 선호하기 때문에 가린 객체만 검출이 된다. 따라서 가려진 객체는 assignment가 되지 않아 영향을 받지 않고 가린 객체와 함께 두 target 모두 수정이 가능하게 되는 것이다.
헝가리안 알고리즘을 사용하면서 IoU를 메트릭으로 사용해 IoU Match라고 하기도 한다. 이는 id 스위치를 방지하는 것 보다 제대로 된 tracking에 집중하는 것이다.
◾ Creation and Detection of Track Identities
객체가 물체를 통과하거나 frame 상에서 벗어나게 되면 각 ID는 적절히 생기거나 사라져야 한다. tracking 되지 않은 객체의 존재를 나타내기 위해 IoUmin보다 작은 중첩을 가진 모든 detection을 고려해야 한다.
tracker는 속도가 0으로 설정된 상태에서 bbox의 geometry를 이용해 초기화 되며 이땐 속도가 관찰되지 않아 속도 성분의 covariance(공분산)은 불확실성을 반영하여 큰 value로 초기화 한다.
새로운 tracker는 FP의 tracking을 막기 위해 target과 detection들을 association 시켜 충분한 증거를 모을 수 있는 시간?(probationary period)을 가진다.
Tlost frame에서 detection이 없으면 tracking이 종료된다. 이는 detector로부터 오랜 시간 동안 보정이 없는 prediction에 의해 야기되는 tracker들의 수가 무한히 증가 되는 문제와 localization eorror를 막기 위함이다.
4️⃣ Experiments
움직이는 카메라 시퀀스와 정적 카메라 시퀀스를 모두 포함하는 MOT 벤치마크 데이터베이스에 의해 설정된 다양한 테스트 시퀀스 세트에 대한 tracking 구현의 성능을 평가한다. 사용된 detection 아키텍처는 Faster R-CNN(VGG16)이다.
◾ Metrics
표준 MOT metric은 아래와 같은 metric을 활용한다.
- MOTA(↑): Multi-object tracking accuracy
- MOTP(↑): Multi-object tracking precision
- FAF(↓): number of false alarms per frame
- MT(↑): number of mostly tracked trajectories. I.e. target has the same label for at least 80% of its life span
- ML(↓): number of mostly lost trajectories. i.e. target is not tracked for at least 20% of its life span
- FP(↓): number of false detections
- FN(↓): number of missed detections
- ID sw(↓): number of times an ID switches to a different previously tracked object
- Frag(↓): number of fragmentations where a track is interrupted by miss detection
(↑)를 사용한 평가 척도는 더 나은 성능을 나타내고 (↓)를 사용한 평가 척도는 더 낮은 성능을 나타낸다. True positive는 해당 ground truth bounding box와 최소 50%가 중복되는 것으로 간주된다.
◾ Performance Evaluation
표 2는 다른 방법에 비해 SORT는 온라인 추적기에서 가장 높은 MOTA 점수를 달성하며 훨씬 더 복잡하고 가까운 미래의 프레임을 사용하는 최첨단 방법 NOMT와 비슷함을 나타낸다. 추가로, SORT의 목적대로 frame-to-frame association에 초점을 맞추기 위해 다른 tracking과 유사한 FN을 가지고 있음에도 불구하고 놓친 target(ML)의 수는 최소임을 알 수 있다. 또한, SORT는 tracklet을 증가 시키기 위해 frame-to-frame association에 중점을 두기 때문에 다른 방법에 비해 손실 된 target의 수가 가장 적다.
◾ Runtime
대부분의 MOT 솔루션은 종종 런타임 성능을 희생하여 성능을 더 높은 정확도로 끌어올리는 것을 목표로 한다. SORT는 일반적인 단점 없이 속도와 정확도라는 두 가지 바람직한 특성을 결합한다.
5️⃣ Conclusion
본 논문에서는 프레임 간 예측 및 연관성에 초점을 맞춘 간단한 온라인 추적 프레임워크를 제시한다. tracking quality가 detection 성능에 크게 의존하며 detection에서의 최근 발전을 활용함으로써 classic tracing 방법으로 최첨단 tracking quality를 달성할 수 있음을 보여주었다. 제시된 프레임워크는 속도와 정확성 모두 클래스 최고의 성능을 달성한다.
제시된 프레임워크의 단순성은 기준선으로 잘 적합하게 만들어 장기적인 occlusion을 처리하기 위해 객체 재식별에 초점을 맞추는 새로운 방법을 가능하게 한다.
논문을 읽은 후 조금 복잡하다고 느껴져서 SORT의 흐름을 간단하게 그림으로 정리를 해 보았다.
뒤죽박죽이던 내용이 깔끔하게 정리 된 것 같다 :)
논문을 읽은 후 주관을 가지고 요약, 정리한 글이므로 해당 포스팅에 대한 이의 제기, 다른 의견 제시 등 다양한 지적, 의견은 언제나 대환영입니다!
댓글로 남겨주시면 늦더라도 확인하겠습니다!!!