AI

ML & DL

Tracklet 이란? (feat. tracking, trajectory)

Tracking을 하면서 자주 접한 단어인 Tracklet에 대해 간단하게 정리 해 보고자 한다.object tracking은 tracklet과 trajectory를 만드는 2단계로 구성이 된다. 여기서 tracklet이란 객체의 고유한 ID를 유지하기 위한 짧은 구간의 경로를 의미한다.  위 그림에서 객체의 이동 경로를 선으로 나타낸 것이 tracklet이다. tracklet을 구하기 위해서는 짧은 구간(k개의 frame, 보통 6개의 frame 마다 계산함)에 대해 검출한 객체 간 유사도를 비교하여 유사도가 높은 객체끼리 고유한 ID를 유지하도록 하여 tracklet을 만들게 된다.객체가 물체에 의해 가려지거나 객체가 아닌데 검출이 된은 경우는 어쩔 수 없이 생기는 문제인데 tracklet을 이용하여..

논문 리뷰

[논문 리뷰] MVFlow : Multi-view Tracking Using Weakly Supervised Human Motion Prediction, Martin Engilberge, et al., 2022

Multi-view Tracking Using Weakly Supervised Human Motion Prediction, Martin Engilberge, et al., 2022 을 읽고 정리, 요약한 글입니다. ◼️ Abstract people-tracking에 대한 Multi-view 접근 방식은 혼잡한 장면에서 single-view 접근 방식보다 occlusion을 더 잘 처리할 수 있는 잠재력을 가지고 있는데, 이는 대부분 사람을 먼저 detection한 다음 detection된 부분을 연결(association)하는 tracking-by-detection 패러다임에 의존한다.본 논문에서는 시간 경과에 따른 사람의 움직임을 예측하고 이를 통해 개별 프레임에서 사람의 존재를 추론하는 것이 훨씬 더..

ML & DL

[밑시딥1] Chapter 4. 신경망 학습

해당 포스팅은 '밑바닥부터 시작하는 딥러닝1'을 공부하고 정리, 요약한 글입니다. 모든 내용은 해당 도서 기준입니다. ◾ 4.1 데이터에서 학습 이번 장의 주제는 신경망의 학습이다. 여기서 학습이란 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것을 의미한다. 또, 신경망의 특징은 데이터를 보고 학습할 수 있다는 점이다. ▪️ 4.1.1 데이터 주도 학습 기계학습은 데이터가 생명이다. 데이터에서 답을 찾고 데이터에서 패턴을 발견하고 데이터로 이가리르 만드는 것이 기계학습이다. 그래서 기계학습의 중심에는 데이터가 존재한다. 기계학습에서는 사람의 개입을 최소화하고 수집한 데이터로부터 패턴을 찾으려 시도한다. 게다가 신경망과 딥러닝은 기존 기계학습에서 사용하던 방법보다 사람의 개입을 더욱 배제..

ML & DL

[밑시딥1] Chapter 3. 신경망

해당 포스팅은 '밑바닥부터 시작하는 딥러닝1'을 공부하고 정리, 요약한 글입니다. 모든 내용은 해당 도서 기준입니다. ◼️ 3.1 퍼셉트론에서 신경망으로 ◾ 3.1.1 신경망의 예 신경망을 그림으로 나타내면 그림3-1처럼 된다. 가장 왼쪽 줄을 입력층, 맨 오른쪽 줄을 출력층, 중간 줄을 은닉층이라고 한다. 은닉층의 뉴런은 사람 눈에는 보이지 않는다. ◾ 3.1.2 퍼셉트론 복습 위는 x1와 x2라는 두 신호를 입력 받아 y를 출력하는 퍼셉트론이다. 이를 간결한 형태로 다시 작성하기 위해 조건 분기 동작(0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력)을 하나의 함수 h(x)로 나타내면 다음과 같다. 식 3.2는 입력 신호의 총 합이 h(x)라는 함수를 거쳐 변환되어 그 변환된 값이 y의 출력이 됨을..

논문 리뷰

[논문 리뷰] Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation, Yihan Wang et al., 2022

Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation, Yihan Wang et al., 2022 을 읽고 정리, 요약한 글입니다. ▪️ 본 논문의 기여 내용 요약 gradual shrinking 실험을 설계하여 high-resolution branch가 저연산 영역의 모델에 중복된다는 것을 밝힌다. bottom-up pose estimation을 위한 효율적인 아키텍처인 LitePose를 제안한다. 또한 fusion deconv head와 large kernel conv를 포함해 LitePose의 capicity를 향상 시키는 두 가지 기술을 소개한다. Microsoft COCO와 CrowdPose라는 두 가지 benchmark d..

논문 리뷰

[논문 리뷰] Lite-HRNet: A Lightweight High-Resolution Network, Changqian Yu, Bin Xiao, et al., 2021

Lite-HRNet: A Lightweight High-Resolution Network, Changqian Yu, Bin Xiao, et al., 2021 을 읽고 정리, 요약한 글입니다. ⏹️ Abstract 본 논문은 human pose estimation을 위한 효율적인 high-resolution network인 LiteHRNet을 제시한다. ShuffleNet의 효율적인 shuffle block을 HRNet(high-resolution network)에 적용하여 MobileNet, ShuffleNet, Small HRNet과 같은 인기 있는 lightweight network보다 더 강력한 성능을 산출하는 것으로 시작한다. shuffle block에서 많이 사용되는 pointwise(1 × 1..

논문 리뷰

[논문 리뷰] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation, Bowen Cheng, et al., 2020

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation, Bowen Cheng, et al., 2020 논문을 읽고 정리, 요약한 글입니다. ⏹ Abstract Bottom-up human pose estimation은 스케일 변화 문제로 인해 작은 사람의 정확한 포즈를 예측하는 데 어려움이 있다. 본 논문에서는 high-resolution feature pyramid를 사용하여 scale-aware representation을 학습하는 새로운 bottom-up human pose estimation 방법인 HigherHRNet을 소개한다. 학습을 위한 multi-resolution supervision과 추..

Python

[pytorch] .detach().cpu().numpy()

pytorch를 사용하다 보면 모듈을 통해 나온 tensor를 사용할 일이 많은데, GPU에 올라가 있는 tensor를 이용하려면 numpy 또는 list로 변환하여야 한다. tensor를 numpy 또는 list로 변환하는 방법은 조금만 찾아보면여러 함수들이 나오긴 하지만 각 함수들을 사용하는 순서가 꽤 중요하기 때문에 자주 쓰는 방법을 기록한다. ◾ detach() pytorch는 tensor에서 이루어진 모든 연산을 기록(graph)해 놓는데 이 연산 기록에서 역전파가 이루어지게 된다. detach() 함수는 이 연산 기록에서 역전파를 중단하고 분리한 tensor를 반환한다. ◾ cpu() GPU 메모리에 올라가 있는 tensor를 CPU 메모리로 복사하는 함수이다. 이후에 numpy로 변환하기 위..

논문 리뷰

[논문 리뷰] [HRNet] Deep High-Resolution Representation Learning for Human Pose Estimation, Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang, 2019.

Deep High-Resolution Representation Learning for Human Pose Estimation을 읽고 정리, 요약한 글입니다. ⏹️ Abstract 본 논문에서는 신뢰할 수 있는 high-resolution representation을 학습하는 데 중점을 둔 human pose estimation 문제에 관심이 있다. 대부분의 기존 방법은 high-resolution에서 low-resolution 네트워크에 의해 생성된 low resolution에서 high-resolution을 복구한다. 하지만 본 논문에서 제안 된 네트워크는 전체 프로세스를 통해 high-resolution representation을 유지한다. 본 논문은 첫 번째 단계로 high-resolution ..

논문 리뷰

[논문 리뷰] Self-Supervised Video Transformer, Kanchana Ranasinghe, Muzammal Naseer et al. (CVPR'22-Oral)

Self-Supervised Video Transformer(CVPR'22-Oral), Kanchana Ranasinghe, Muzammal Naseer et al.를 읽고 요약&정리 한 글입니다. ⏹ Abstract 본 논문에서는 라벨링이 되지 않은 비디오 데이터를 사용하여 video transformers에 대한 self-supervised training을 제안한다. 주어진 비디오에서 다양한 spatial size와 frame rates로 local 및 global spatio-temporal view를 생성하고 action의 spatio-temporal variations에 불변(invariant)하기 위해 동일한 비디오를 나타내는 다른 특징을 matching시키는 것을 추구한다. 본 논문에서 제..

토오오끼
'AI' 태그의 글 목록