DOTA : A Large-scale Dataset for Object Detection in Aerial Images(2019)를 읽고 요약한 글입니다.
Abstract
해당 논문에서는 위성 사진의 Earth Vision의 object detection 연구를 진전시키기 위해 위성 이미지의 object detection을 위한 대규모 데이터 세트(DOTA)를 소개한다. 이를 위해 다른 센서와 플랫폼에서 286개의 항공 이미지를 수집하며 각 이미지의 크기는 약 4000x4000픽셀로 다양한 스케일, 방향 및 모양을 나타내는 물체를 포함한다. 이러한 DOTA 이미지는 15개의 공통 object 범주를 사용하여 위성 영상 해석 전문가에 의해 주석이 달린다. 완전한 주석이 달린 DOTA 이미지에는 188개, 282개의 인스턴스가 포함되며, 각 인스턴스는 임의의 사각형으로 레이블이 지정된다. Earth Vision에서 물체 감지 기준을 구축하기 위해 DOTA에서 최첨단 물체 감지 알고리즘을 평가한다.
1. Introduction
Earth Vision에서 object detection은 지구 표면에 있는 object(예: 차량, 비행기)를 위치시키고 카테고리를 예측하는 것이다. 일반적으로는 중력에 의해 물체가 위쪽으로 향하는 반면에 위성 이미지는 Earth Vision 플랫폼의 관점에 따라 임의의 방향으로 나타난다. 최근 객체 탐지를 위한 딥러닝 기반 알고리즘의 성공에 힘입어, 대규모 이미지 데이터 세트(예: ImageNet 및 MSCOCO)에 사전 훈련된 넷튜닝 네트워크를 기반으로 한 접근 방식을 추구해 왔다.
센서의 공간 해상도 뿐만 아니라 동일한 개체 범주 내부의 크기 변화 때문에 위성 영상의 object instance의 스케일 변화는 엄청나다. 또 데이터셋의 편향 문제(데이터셋 전체의 일반화 정도가 낮음) 때문에 Erarth Vision의 object detection 연구는 어려움을 겪고 있다.
때문에 해당 논문에서는 DOTA를 소개한다. DOTA는 4000x4000 사이즈의 이미지로 각각 다른 스케일, 방향 및 모양의 object를 포함한다. DOTA의 이미지는 총 15개의 주석으로 처리 되어있다. 주석처리 된 DOTA는 188,282개의 인스턴스가 포함되어 있으며 각 인스턴스는 방향 경계 상자로 주석처리 된다.
2. Motivation
좋은 위성 이미지 데이터셋은 많은 양의 이미지와 클래스, 카테고리 별 많은 인스턴스, 적절한 방향의 object 주석 등의 조건을 갖춘 데이터셋이다. 하지만 기존의 위성 이미지 데이터셋은 데이터 및 클래스의 부족, 상세한 주석 부족 그리고 낮은 해상도 등의 단점을 가지고 있다. 이러한 기존의 위성 이미지 데이터셋의 단점을 해결하기 위해서는 실제 애플리케이션의 요구를 반영하도록 데이터 세트의 주석 처리가 이루어져야 한다.
DOTA는 다른 데이터셋과는 달리 object에 적절한 방향의 oriented bounding boxes(OBB)(한국어 직역 - 방향 경계 상자)가 주석 처리가 되어 있다는 것이다. OBB는 object를 더 잘 둘러싸며 혼잡한 object를 서로 구별할 수 있게 한다.
3. Annotation of DOTA
위성 이미지 해석 전문가들에 의해 선택된 여러 도시에서 촬영된 이미지를 수집하여 중복된 이미지가 없도록 각 이미지의 위치와 시간의 정확한 지리적 좌표를 기록한다.
DOTA는 비행기, 선박, 저장 탱크, 야구장, 테니스장, 농구장, 육상장, 항구, 다리, 대형차, 소형차, 헬리콥터, 원형 교차로, 축구장, 농구장으로 총 15개로 주석처리 되었다.
일반적으로 바운딩 박스는 (xc, yc, w, h)로 설명되며 여기서 (xc, yc)는 중심 위치, w와 h는 각 바운딩 박스의 폭과 높이이다. 방향이 없는 object는 이런 방법으로 주석 처리를 할 수 있다. 하지만 이런 방식으로 주석 처리 된 바운딩 박스는 위성 이미지의 텍스트 및 object와 같은 방향 인스턴스를 정확하고 압축적으로 윤곽을 그릴 수 없다. 이러한 문제를 해결하기 위해서 해당 논문에서는 주석 처리를 하는 다른 방법을 고려한다.
더 유연하고 이해하기 쉬운 방법을 선택하기 위한 대안은 임의의 사각형 바운딩 박스이다. {(xi, yi), i = 1; 2, 3, 4}로 표현할 수 있으며 여기서 (xi, yi)는 이미지에서 OBB의 정점 위치를 나타낸다. 꼭지점은 시계 방향으로 배열되어 있다.
이러한 방법은 지향적인 장면 텍스트 감지 벤치마크에서 널리 채택된다.
해당 논문은 이러한 연구에서 영감을 얻어 임의의 사각형 바운딩 박스를 사용하여 object를 주석 처리 했다.
위의 그림과 같이 보다 상세한 주석 처리를 위해 일반적으로 물체의 "Head"를 의미하는 첫 지점(x1, y1)의 중요성을 강조한다.
헬리콥터, 대형 차량, 소형 차량, 항구, 야구장, 선박 및 비행기의 경우 잠재적인 용도를 풍부하게 하기 위한 첫 번째 지점(x1, y1)을 주의 깊게 표시한다. 축구장, 수영장, 다리, 그라운드 트랙, 농구장 등은 가장 중요한 지점을 결정할 수 있는 시각적 단서가 없기 때문에 보통 왼쪽 상단 지점을 첫 지점(x1, y1)으로 선택한다.
훈련 데이터와 테스트 데이터 분포가 거의 일치하는지 확인하기 위해 원본 이미지의 절반을 훈련 세트로, 1/6을 검증 세트로, 1/3을 테스트 세트로 무작위로 선택한다.
해당 연구진은 모든 원본 이미지에 대해 훈련 세트 및 검증 세트를 위한 근거 정보를 공개하지만 테스트 세트를 위한 근거 정보는 제공하지 않으며 테스트를 위해 현재 평가 서버를 구축하고 있다.
4 Properties of DOTA
위성 영상은 일반적인 이미지 데이터셋에 비해 크기가 매우 크다.
위성 영상의 데이터셋의 이미지 크기는 약 800x800에서 4000x4000까지이며 일반적인 이미지 데이터셋의 크기는 1000x1000 이하이다. 단일 인스턴스가 다른 조각으로 분할되는 경우를 방지하기 위해 원본 전체 이미지에 대한 주석을 조각으로 분할하지 않고 만든다.
또한 데이터셋의 각 이미지에 대한 공간 해상도를 제공하는데 이는 인스턴스의 실제 크기를 의미하며 object detection에서 중요한 역할을 한다.
object detection에 대한 공간 해상도의 중요성은 다음과 같다.
첫째는 모델이 동일한 카테고리의 다양한 object에 대해 적응하기 쉽고 견고할 수 있으며 모델이 object 크기 대신 해상도 정보를 제공하며 object 모양에 더 많은 주의를 기울일 수 있다.
두번째는 세분화된 분류에 더 좋다. 대부분의 카테고리에 대한 실제 크기의 클래스 내 다양성이 제한적이기 때문에 공간 해상도를 사용해 데이터셋에서 라벨이 잘못된 특이치를 필터링 할 수도 있다.
픽셀 크기라고 하는 수평 바운딩 박스의 높이를 인스턴스 크기에 대한 측정이라고 한다. 데이터셋의 모든 인스턴스를 수평 바운딩 박스의 높이에 따라 세 개의 분할로 나누다. 작은 범위는 10~50, 중간은 50 ~ 30, 큰 범위는 300 이상이다.
픽셀 크기는 카테고리에 따라 다르다는 점을 주의해야 한다. 예를 들면 차량은 30대까지는 작을 수 있지만 다리는 차량보다 40배는 큰 1200대까지 클 수 있다. 모델은 매우 작고 큰 물체를 처리할 수 있을만큼 유연해야 하는데 카테고리 별로 인스턴스 간에 큰 차이가 있어 detection 작업이 더욱 어려워진다.
종횡 비율은 Faster RCNN 및 YOLOv2와 같은 anchor-based model에 필수적인 요소이다.
더 나은 모델 설계를 위한 참조를 제공하기 위해 데이터셋의 모든 인스턴스에 대해 아래 두 가지 종류의 종횡 비율을 계산한다.
첫째로 최소 제한 수평 직사각형 바운딩 박스의 종횡 비율이며, 둘째로 원래 사각형 바운딩 박스의 종횡 비율이다.
위의 그림에서 종횡 비율이 매우 다르다는 것을 알 수 있으며 데이터셋에는 종횡 비율이 큰 인스턴스 수가 많다는 것도 알 수 있다. 또, 위 그림의 (c)는 DOTA 데이터셋의 인스턴스 수를 보여준다.
단일 이미지에 너무 많은 인스턴스가 있기 때문에 인스턴스로 밀집된 영역을 보는 것은 불가피하다. COCO의 경우 인스턴스를 인접 인스턴스와 구별하기 어렵기 때문에 인스턴스에는 하나하나 주석을 달지 않는다. 이러한 경우 인스턴스 그룹은 "crowd"라는 속성을 가진 하나의 segmente로 표시된다.
하지만 위성 영상은 밀도가 높은 영역의 모든 인스턴스에 하나하나 주석을 달 수 있다. 위의 Figure 4는 이를 잘 나타내는 그림이다.
5. Evaluations
DOTA의 object detection의 상태를 평가하기 위해서는 일반적인 object detection에 탁월한 성능을 위한벤치마크 테스트하는 알고리즘으로 Faster RCNN, R-FCN2, YOLOv23, SSD2를 선택한다.
해당 논문에서는 DOTA에서 최첨단 딥 러닝 기반 detection 방법의 상태를 평가하기 위해 수평 바운딩 박스(HBB)에서의 detection, 방향 바운딩 박스(OBB)를 제안한다.
DOTA의 이미지는 너무 크기 때문에 CNN 기반 검출기로 전송을 할 수 없다. 따라서 stride가 512로 설정된 원본 이미지에서 1024x1024로 패치 시리즈를 잘라낸다. 편의상 편의상 원래 물체의 넓이를 Ao로, 분할된 부분의 넓이인 Pi(i = 1, 2)는 ai(i = 1, 2)로 표시한다. 그런 다음 원래 개체 영역에 대한 부품 영역을 Ui = ai /Ao의 식으로 계산한다. 마지막 단계로 파트 Pi(Ui < 0.7)에 라벨을 붙이고 다른 파트 Pi는 원래 주석과 동일하게 유지한다.
테스트 단계에서는 잘라낸 이미지 패치를 보내 임시 결과를 얻은 후 다음 결과를 결합해서 원본 이미지에 대한 detection 결과를 복원한다. 예측된 클래스를 기반으로 이러한 결과에 대해 최대값이 아닌 NMS(non-maximum suppression)를 사용한다.
위에서 제안한 HBB, OBB 실험에 대한 결과를 분석 해 보면 소형 차량, 대형 차량 및 선박과 같은 범주에 대한 성능은 만족스럽지 못하다. 크기가 작고 밀집된 위치이기 때문이라고 추측된다. 반면에 비행기, 수영장, 테니스 코트와 같은 크고 분리된 object들은 꽤 만족스럽다.
Figure 6의 (a), (b)와 같은 조밀하게 몰려있는 object의 경우 HBB 실험에서 물체의 위치 정밀도는 OBB 실험보다 훨씬 낮으며 많은 결과는 사후 진행 연산을 통해 억제된다. 따라서 OBB 회귀는 실제 애플리케이션에 실제로 통합될 수 있는 지향적인 객체 탐지를 위한 올바른 방법이라고 볼 수 있다.
Figure 6의 (c)에서 항구, 다리와 같이 OBB 스타일로 주석을 단 object는 현재 검출기가 제대로 구별하기 힘들다. 그러나 HBB 스타일에서 이러한 물체는 일반적인 종횡 비율을 가지며 그 결과 Figure 6의 (d)에 나타난 것과 같이 결과가 상당히 양호한 것으로 보인다. 그러나 Figure 6의 (e), (f)와 같은 굉장히 빽빽하게 모여있는 사진에서는 HBB와 OBB의 결과는 모두 만족스럽지 못하며 이는 현재 검출기의 결함을 의미한다.
6. Cross-dataset validations
해당 논문에서는 다른 위성 사진의 object detection 데이터셋과 비교하여 비교적 많은 수의 데이터에 대해 데이터셋 간의 일반화를 수행하기 위해 UCAS-AOD 데이터셋을 선택했다. UCAS-AOD에 대한 공식적인 데이터 분할이 없기 때문에 훈련용 1110과 테스트용 400을 무작위로 선택한 후 모든 실험에 대한 테스트 감지기로 YOLOv2를 선택하고 모든 실측 정보에 대한 HBB 스타일 주석을 선택했다. 입력 이미지 크기는 UCAS-AOD의 원래 이미지 크기에서 960x544로 변경되지만 다른 설정은 변경하지 않았다. 그 결과는 아래 표 6에서 볼 수 있다.
두 데이터셋의 성능 차이는 각각 YOLOv2-A의 경우 35.8, YOLOv2-D 모델의 경우 15.6이다. 이것은 DOTA가 UCAS-AOD를 크게 커버하고 더 나아가 UCAS-AOD에서 공유되지 않는 더 많은 패턴과 특성을 가지고 있음을 시사한다. 두 모델 모두 DOTA에서 낮은 결과를 얻는데, 이는 DOTA가 훨씬 더 어렵다는 것을 반영한다.
7. Conclusion
OBB를 사용하여 잘 분포된 수 많은 방향 object에 주석을 달 수 있다. DOTA가 어렵지만 실제 용도에 더 적합하며 실제 이미지와 비슷하다고 가정한다. 위성 영상에 object detecton에 대한 벤치마크를 설정하고 mainstream detection algorithm을 수정하여 OBB를 생성할 수 있는 가능성을 보여준다.
사이즈가 큰 이미지에서 임의의 방향으로 밀집된 작은 인스턴스와 극도로 큰 인스턴스를 탐지하는 것은 특히 의미 있고 어려운 일일 것이다. 해당 연구진은 DOTA가 Earth Vision의 물체 감지 알고리즘 개발을 촉진할 뿐만 아니라 컴퓨터 비전의 일반적인 물체 감지에도 흥미로운 알고리즘 질문을 제기할 것으로 믿는다.
논문을 읽은 후 주관을 가지고 요약, 정리한 글이므로 해당 포스팅에 대한 이의 제기, 다른 의견 제시 등 다양한 지적, 의견은 언제나 대환영입니다!
댓글로 남겨주시면 늦더라도 확인하겠습니다!!!