Small Object Detection in Optical Remote Sensing Images via Modified Faster R-CNN, Yun Ren et al., April 20, 2018 을 읽고 요약한 글입니다.
Abstract
Faster R-CNN을 the small remote sensing objects에 직접 적용하면 대개 성능이 저하되는 문제를 해결하기 위해 해당 논문은 광학 원격 감지 이미지에서 소형 물체 감지 작업을 위해 Faster R-CNN을 수정하는 방법에 대해 서술한다.
적절한 앵커(앵커박스에 대한 설명 링크)를 설정하여 Faster R-CNN의 RPN(지역 제안 네트워크) 단계를 수정하여 고해상도 단일 기능 맵을 활용하며 훈련 중 '랜덤 회전'이라는 간단하면서도 효과적인 데이터 확대 방법을 소개한다.
실험 결과에 따르면 수정된 Faster R-CNN 알고리즘은 the small remote sensing objects(작은 원격 감지 물체)를 탐지할 때 평균 정밀도를 크게 향상시킨다.
1. Introduntion
Faster R-CNN과 같은 현재의 object detector들은 항상 컨볼루션 신경망을 활용하여 특징 표현을 추출하는데, 아주 작은 물체를를 감지할 땐 Faster R-CNN의 성능이 좋지 않다. 이 문제를 해결하기 위해 광학 원격 감지 이미지에서 작은 물체 감지 작업을 위해 Faster R-CNN을 수정하는 방법을 조사한다.
본 논문에서는 광학 원격 감지 이미지에서 작은 물체 탐지를 위해 널리 사용되는 Faster R-CNN을 확장한다.
첫째, 작은 객체 제안을 생성하기 위해 교육 세트의 통계를 기반으로 Faster R-CNN의 RPN 단계에서 앵커를 정교하게 수정한다.
둘째, 고해상도 기능 맵을 생성하는 효과적인 방법이 제시되며, 이는 작은 원격 감지 물체를 감지하는 데 매우 중요한 저수준 기능과 고수준 기능을 동시에 활용한다.
셋째, 교육 프로세스 중에 개체 제안을 포함하는 컨텍스트 정보를 활용하여 작은 개체 감지 성능을 더욱 향상시킨다.
마지막으로, 훈련 중 불균일한 등급 분포 문제를 해결하기 위해 샘플링 전략을 적용하는 동시에 사용 가능한 광학 원격 감지 데이터를 증가시키는 간단하지만 효과적인 접근 방식인 'random rotation(랜덤 회전)'을 제시한다.
2. Modifying Faster R-CNN for Small Object Detection in Optical Remote Sensing Images
Faster R-CNN의 특징 추출 프로세스에서 RPN은 PASCAL VOC 데이터셋의 다소 큰 물체에 대한 광범위한 규모와 ARs(aspect ratios)로 지역 제안을 효율적으로 예측하도록 설계되었다. 가장 작은 RPN 앵커 박스가 대부분의 원격 감지 개체 데이터 세트 인스턴스보다 훨씬 크다.
Figure 1에서 대부분의 경계 상자의 면적이 데이터 세트에서 102에서 1002픽셀 사이임을 확인할 수 있다. 앵커 기반 방법은 여러 축척과 ARs를 가진 앵커 피라미드 위에 구축되었다. RPN 앵커가 너무 커서 그림 1에 표시된 원격 감지 데이터 세트의 객체 크기 범위를 커버할 수 없다다. 이를 기초로 하여, 경험에 의해 적절한 앵커를 선택하거나 이전에 사용된 ARs를 유지하면서 동일한 2의 거듭제곱 체계를 사용하여 앵커를 간단히 추가할 수 있다.
또한, 중간 피쳐 맵은 보통 두 픽셀의 스트라이드에 의해 네 번 다운샘플링되기 때문에 마지막 공유 컨볼루션 레이어의 형상 맵 크기가 너무 작아서 추출된 형상이 대형 객체에만 민감하다는 것을 알 수 있다. 사전 훈련된 ResNet-50 모델을 선택하면 VGG 및 Inception과 같은 다른 사전 훈련된 모델보다 더 나은 성능을 얻을 수 있다는 것은 실험적으로 증명되었다. 이에 따라 기본적으로 faster R-CNN의 백본으로 ResNet-50 모델을 선택한다.
Figure 2을 보면 모든 채널 치수는 사전에 1x1 컨볼루션 레이어에 의해 고정된 숫자로 조정된다. 따라서 각 측면 연결은 상향식 경로와 하향식 경로에서 동일한 공간 크기의 특징 맵을 결합한다. 종종 동일한 크기의 출력 맵을 생성하는 많은 계층들이 있고 이러한 계층들이 동일한 네트워크 단계에 있다고 말한다.
Figure 2에서 각각 res3d, res4f 및 res5c로 표시된 두 번째 세 단계의 마지막 잔류 블록에 의한 형상 맵 출력을 사용하며 양선형 보간법을 사용하여 상위 단계의 마지막 레이어의 형상 맵을 상향 샘플링하기만 한다. 요소별 추가에 의해 세 형상 출력을 병합한 후 3x3 컨볼루션 레이어가 추가되어 최종 형상 맵을 생성하며, 이는 업 샘플링의 앨리어싱 효과를 저하시키는 데 사용된다.
3. Contextual Detection Model
이 절에서는 원격 감지 데이터 세트에 대한 상황별 정보를 더 잘 활용하기 위한 새로운 상황별 모델을 설계한다.
RPN 단계에서 객체 제안을 생성한 후, ROI-Pooling 레이어를 사용하여 고속 R-CNN 단계에서 네트워크의 진보를 기반으로 공유 형상 맵에 각 제안을 투영한다. 그런 다음 각 제안에 해당하는 형상 맵은 사전 정의된 공간 해상도를 가진 고정 차원 표현으로 인코딩된다. 이어서 분류 및 등급별 경계 상자 회귀를 위해 이러한 프레젠테이션과 함께 완전히 연결된 여러 레이어가 공급된다.
Figure 3에서 설명한 바와 같이, 공간 해상도가 기본 설정을 따르는 ROI-Pooling 레이어(즉, 7 × 7) 이후 제안 영역을 후보 제안과 함께 통합한다. 또한, 연결된 형상 맵은 계산 비용을 고려하여 채널 치수를 줄이기 위해 1 x 1 컨볼루션 레이어에 공급된다. 또한 완전히 연결된 레이어가 없는 사전 훈련된 ResNet-50 모델의 모든 컨볼루션 레이어와 공유 기능 맵을 구성한다. 따라서 최종 분류 전에 Xavier 방법에 의해 무작위로 초기화되는 숨겨진 1024-d 완전 연결 레이어 2개(각 다음 Dropout 및 ReLU 레이어)를 부착한다.
4. Data Pre-Processing
이 절에서는 훈련 중 불균일한 등급 분포 문제를 해결하기 위해 샘플링 전략을 적용하는 동시에 사용 가능한 광학 원격 감지 데이터를 증가시키는 접근방식을 제시한다.
해당 논문에서는 두 가지 원격 감지 물체, 즉 선박과 비행기에만 초점을 맞춘다. Google 어스와 Vaihingen 데이터셋에서 잘라낸 다음 수동으로 주석을 단 800개의 초고해상도(VHR) 광학 원격 감지 이미지를 포함하는 NWPU VHR-10 데이터셋을 사용했다.
이 데이터셋에는 10개의 범주(비행기, 선박, 저장 탱크, 야구 다이아몬드, 테니스 코트, 농구 코트, 지상 트랙 필드, 항구, 브리지 및 차량)가 포함되어 있다. 하지만 비행기 클래스에 관련된 이미지는 90개뿐이며 선박 클래스에 대한 이미지는 57개뿐이므로 학습에는 충분하지 않다.
더 많은 데이터를 얻는 것이 필수적이기 때문에 수동 주석과 데이터 확대라는 두 가지 방법으로 훈련 데이터를 늘렸다.
데이터 세트의 '선박' 범주를 포함하는 2608개 이미지 세트를 여러 해상도의 Google 어스와 같은 여러 센서와 플랫폼에서 수집하고 플립 연산을 하여 데이터의 양을 늘렸다. 수정된 faster R-CNN을 훈련하기 위해 간단하지만 효과적인 데이터 증강 기술인 랜덤 회전(Random Rotation, RR)을 도입했다.
RR은 특정 확률에서 발생하며 미니 배치 내의 이미지는 확률 p로 RR을 수행하도록 랜덤하게 선택되거나 확률 1-p로 변경되지 않은 상태로 유지된다. RR은 이미지를 각도 q만큼 무작위로 회전시킨다. 특히, 직사각형 영역에 주석을 단 실측값의 4개 점은 각도 q만큼 회전한다. 이러한 점의 원래 좌표는 각각 {(xi, yi), i = 1, 2, 3, 4}로 시계 반대 방향으로 표시된다. 따라서 회전된 점 {(xi0, y0), i = 1, 2, 3, 4}은 아래 식 (1)에 따라 계산할 수 있다.
각 실측값의 원래 바운딩 박스가 RR 작동 후 평행사변형이 되어 왼쪽 상단 모서리(xmin, ymin)와 오른쪽 하단 모서리(xmax, ymax)를 회전 바운딩 박스로 아래 식 (2)로 계산할 수 있는 minimum enclosing rectangle(MER)을 채택한다. 이는 MER이 원래 경계 상자보다 더 많은 영역을 잘라내기 때문에 컨텍스트 정보를 어느 정도 활용할 수 있는 장점이 있다.
클래스의 이미지 수가 불균형해서 훈련에 큰 어려움을 야기하기 때문에 훈련 중에 '균형 샘플링'(balanced sampling,BS)을 적용한다. 이 방법은 클래스와 관련하여 한 에폭 내에 가능한 한 균일하게 반복하는 것을 목표로 한다.
해당 연구진인 훈련 리스트인 사용하며 세 가지 클래스의 예시는 Figure 4에 있다.
먼저, 훈련 리스트 클래스를 클래스별로 분류하고 Figure 4에서 K3으로 표시된 가장 큰 범주 번호를 센다. 그런 다음 각 클래스에 대해 구간 [0, K3 - 1]이 있는 K3 정수 목록을 랜덤하게 생성하고 각 클래스에 대해 모드 연산자를 활용하여 이미지가 샘플링되는 해당 인덱스 값 목록을 얻는다. 마지막으로 샘플링된 이미지 목록을 연결하고 섞어서 새로운 교육 목록이 생성된다. 앞서 언급한 연산자는 전체 모델 교육이 끝날 때까지 다시 반복된다.
5. Experiments and Results
해당 논문의 실험은 ResNet-50 모델을 사용하는 수정된 Faster R-CNN 검출기를 기반으로 수행된다. 이 모델은 ImageNet 분류 모델에 의해 초기화된 다음 2종류의 원격 감지 객체 인스턴스, 선박 및 평면을 포함하는 광학 원격 감지 데이터 세트에서 미세하게 전환된다. 채널 치수를 줄이기 위해 1x1 컨볼루션 레이어를 채택한다. 두 형상 출력을 병합한 후 3x3 컨볼루션 레이어가 에 추가된다.
베이스라인의 성능은 66.6% mAP이며 AP는 선박의 경우 58.2%, 평면의 경우 75.0%이다. 이는 총 스트라이드가 8인 수정된 Faster R-CNN이 특히 바운딩 박스 영역이 10^2와 50^2 픽셀인 선박의 경우 총 스트라이드가 16인 기본 모델보다 더 나은 성능을 달성한다는 것을 의미한다.
또한 적절한 앵커 박스를 사용하면 탐지 성능을 거의 2% 포인트 높일 수 있다는 것을 알 수 있으며 이를 통해 기존 데이터 세트에 따라 적절한 앵커 박스를 선택하는 방법에 대한 통찰력을 얻을 수 있다. 이 결론에 기초하여, 모든 후속 실험은 16^2, 40^2, 100^2 픽셀의 박스 면적을 가진 세 개의 척도를 채택한다.
수정된 Faster R-CNN은 광학 원격 감지 이미지에서 작은 물체를 감지하는 데 매우 인상적인 성능을 제공한다.
SORSI 데이터 세트의 일부 테스트 결과는 Figure 7에 나와 있다. Figure 7b-d에서와 같이 스트라이드가 8인 경우 더 많은 작은 물체를 감지할 수 있으며, 이는 낮은 수준의 특징과 높은 수준의 특징을 활용하여 고해상도 특징 맵을 동시에 생성하는 것이 작은 원격 감지 물체를 탐지하는 데 매우 중요하다는 것을 보여준다.
그러나, 비행기들이 항상 비행장에 줄을 서 있는 동안, 배는 항구와 같은 복잡한 장면에 정박하는 경향이 있다. 이러한 장면들은 종종 긴 직선과 같이 기하학 구조가 유사한 물체를 포함한다. 이러한 장애는 Figure 7과 같이 검출기에 잘못된 detection 결과를 보인다.
또한 일부 물체는 너무 작아서 검출할 수 없으며, Figure 7b에 표시된 것과 같이 잘못 detection될 수 있다. 이와 동시에 Figure 7a에 표시된 수동 주석 오류로 인해 몇 가지 실측 정보에 주석이 달리지 않을 수 있으며, 이로 인해 잘못된 detection이 발생할 수 있다.
6. Conclusions
해당 논문은 광학 원격 감지 이미지에서 작은 물체 감지 문제를 처리하기 위해 수정된 Faster R-CNN 방법을 제안했다. 이를 해결하기 위해 하향식 연결과 스킵 연결을 채택한 유사한 아키텍처를 설계하여 고해상도 단일 기능 맵을 최종 공유 기능 출력으로 만들었으며, 이는 작은 원격 감지를 탐지하는 데 매우 중요하다.
또한, 훈련 중 작은 물체 감지 성능을 더욱 향상시키기 위해 개체 제안을 포함하는 컨텍스트 정보를 활용했으며 훈련 중 불균일한 등급 분포 문제를 해결하기 위해 샘플링 전략을 적용하는 동시에 사용 가능한 광학 원격 감지 데이터를 증가시키는 간단하지만 효과적인 접근 방식인 '랜덤 회전'을 제시했다.
광학 원격 감지 이미지에서 작은 물체 감지 작업에 대한 수정된 Faster R-CNN의 성능에 대한 광범위한 실험을 수행하고 종합적인 분석을 제공했다.
논문을 읽은 후 주관을 가지고 요약, 정리한 글이므로 해당 포스팅에 대한 이의 제기, 다른 의견 제시 등 다양한 지적, 의견은 언제나 대환영입니다!
댓글로 남겨주시면 늦더라도 확인하겠습니다!!!