Information/Paper

VPS-SLAM: Visual Planar Semantic SLAM for Aerial Robotic Systems

페트론 2020. 3. 31. 09:08

VPS-SLAM: Visual Planar Semantic SLAM for Aerial Robotic Systems

HRIDAY BAVLE1, PALOMA DE LA PUENTE1, (Member, IEEE), JONATHAN HOW2, (Fellow,
IEEE) AND PASCUAL CAMPOY1, (Member, IEEE)
1Computer Vision and Aerial Robotics group, Centre for Automation and Robotics, Universidad Politécnica de Madrid (UPM-CSIC), Calle Jose Gutiérrez
Abascal 2, 28006 Madrid, Spain
2Aerospace Controls Laboratory, Massachusetts Institute of Technology (MIT), 77 Mass. Ave., Cambridge, MA 02139, USA
Corresponding author: Hriday Bavle (e-mail: hriday.bavle@upm.es).

ABSTRACT

 Indoor 환경 내에는 많은 high-level semantic information이 존재한다. 이러한 semantic information는 pose estimate의 불확실성 문제 해결에 도움이 된다. 하지만 semantic indormation을 어떻게 추출하고 활용할 것인지에 대한 문제가 남아있다. 이러한 문제를 해결하기 위해 본 논문에서는 on board aerial robotic platforms에서 작동하는 lightweight and real-time visual semantic SLAM framework를 소개한다. 이 새로운 방법은 low level visual/visual-iinertial odometry (VO/VIO) 와 semantic objects로부터 발견한 planar surfaces의 geometrical information을 융합하게 된다. semantic objects로부터 선책된 planar surfaces를 추출하는 것은 robustness를 높이고 빠르게 점진적으로 metric estimates를 향상시키며, 동시에 object instances를 그들의 형태와 크기에 관계없이 생성해낸다. 본 논문의 graph-based approach는 몇몇 최신 VO/VIO 알고리즘과 최신 object detectors를 함께 사용하여 로봇의 완전한 6DoF pose를 추측하는 동시에 환경에 대한 sparse semantic map을 만들어낸다. 본 논문은 RGB-D Datasets을 이용하여 최신 SLAM 알고리즘과 성능을 비교하였다. 그리고 특정한 환경적 조건이 있을 때 실내 환경에서 실험을 수행하고, 이를 on board aerial robot에 대해서도 수행하였다.  

 

1. INTRODUCTION

 실내의 좁고 험난한 공간을 주행하기 위해서 small-size aerial robots이 자주 사용되며, 이러한 aerial robots은 적재용량으로 인해 RGB 혹은 RGB-D camera 와 같은 가벼운 센서밖에 사용하지 못하며, 연산 자원에 제한이 존재한다. 진정한 자율주행을 위해서 정확한 localization와 의미있는 mapping 결과가 필요하며, 이런 문제의 robustness를 올리는 것은 쉽지 않은 문제이다. 

 Visual sensor를 사용한 SLAM은 feature-based (sparse, semi-dense or dense) 혹은 intensity-based 를 이용한다. 대부분의 semi-dense SLAM 기술은 points, lines, planes와 같은 환경 내의 low level characteristic features를 이용한다. 이러한 접근은 일반적으로 빛 변화나 반복되는 패턴으로 인해 성능을 악화시키게 된다. 반면에 dense 3D mapping의 경우 real-time operation을 위해 높은 수준의 CPU와 GPU를 요구하며, 이는 낮은 연산 능력을 갖는 aerial robot에게는 분명한 한계가 된다.

 최근에는 computer vision algorithms의 발전으로 낮은 성능의 CPUs와 GPUs에서도 real-time으로 object based detectors를 작동시킬 수 있게 되었다. 이러한 detector를 low-level features 의 VO/VIO와 융합함으로써 data associations의 정확도를 향상시키고 높은 연산이 요구되지 않는 robust loop closures를 얻을 수 있다. 물론 SLAM systems에 semantic information을 추가하는 것은 분명 추가적인 지식을 얻을 수 있으나, semantic object의 정확한 3D position을 추출하는 것은 쉽지 않은 일이고 이로인해 data association과 semantic objects의 mapping에 errors가 발생할 수 있다. 3D position 추측의 정확도가 떨어지는 것은 주로 두 가지 factor 때문이다. (1) semantic object classes 각 instaces의 울퉁불퉁하고 복잡한 3D structures. (2) semantic object detections의 error. i.e object detectors에 의해 제공되는 bounding boxes는 object에 정확하게 맞지 않는다.

 indoor 환경의 몇몇 objects 들은 objects의 상대적인 opsition estimation을 향상시킬 수 있도록 추출할 수 있는 vertical and/or horizontal planar surface를 갖고 있다. 이런 이유로, 위에서 언급된 한계들을 극복하고 robust하고 lightweight한 SLAM algorithm을 얻기 위해, 본 논문에서는 semantic detections을 통한 planar objects를 이용한 semantic SLAM approach를 제안한다.

 제안된 알고리즘은 두 파트로 나뉜다. 첫 번째 파트에서는, VO/VIO estimate를 이용해 robot state가 계산된다. 이 과정에서 환경 내의 Low-level features가 사용된다. low-level feature detection and matching 과 IMU errors  and biases의 부정확함으로 인해 robot state 추측을 위한 VO/VIO estimations은 종종 errors가 발생하게 된다. 이러한 error는 이미 mapping된 semantic planes과 다시 발견된 semantic objects의 high-level planar surfaces를 이용해 해결할 수 있다. 발견된 object의 planar surfaces 추출을 위해서 object detectors에 plane extraction 기법을 융합하게 된다. 이런 이유로, 두 번째 파트는 estimation을 수정하고 semantic detections로부터 추출된 planar surfaces의 sparse semantic map을 만드는 것이 된다.

 planar surfaces로 구성된 semantic map은 planar surfaces의 중심점, 회전각, class labels, planar surfaces type(i.e. horizontal or vertical), 로 나누어진다. 본 논문의 main contributions을 요약하자면 다음과 같다.

  • on board aerial robot에서 동작하기 적합한 robust and lightweight semantic SLAM algorithm
  • 정확한 high-level data association과 semantic landmarks의 mapping을 위하여 semantic detections에 fast planar extraction 을 포함함.

 

2. RELATED WORK

 현재 Visual SLAM에 대한 관심도는 굉장히 높으며, data association을 위한 object-level information과 loop closure가 quality와 robustness를 높일 수 있다는 인식이 많다. 

 

3. SEMANTICS BASED PLANAR EXTRACTION

3. A. SEMANTIC OBJECT DETECTION

 semantic object detection은 aerial robots의 제한된 연산량을 고려하여 YOLOv2 를 선정하였고, lightweight Tiny-YOLOv2 model은 COCO datasets으로 train 됨. real-time performance를 위하여 GPU 소비는 300mb로 함. object는 특정 확률 이상일 때에만 detection으로 판단하게 됨.

 Tiny-YOLO가 높은 연산을 필요로 하는건 아니지만 여전히 GPU를 필요로 한다. 본 논문에서는 GPU가 아닌 CPU 만으로 Tiny-YOLO를 수행하기 위해 영상의 shape와 color(blue and red)만으로 object detection을 수행하게 된다. (이 부분을 해결하기 위해서 YOLO-Lite 등의 사용을 검토해봐야 겠다.) detector는 먼저 HSV colored space의 정보를 기반으로 object를 filtering하게 된다. filtered image는 이후에 shape image processor를 통해 objecte shape detect를 수행한다.

 object detection은 RGB camera로부터 받은 이미지를 이용해 수행된다. 이 후에 object detectors로부터 검출된 bounding boxes는 depth image registered 로부터 생성된 3D point clouds로부터 얻은 planar information의 segments를 통해 object segmentation을 진행한다.

 

3. B. SEMANTIC OBJECT SEGMENTATION

 그림 7의 (c)와 같이 detector로부터 받은 bounding boxes는 objects와 완벽하게 일치하지 않을 수 있다. 이를 이용해 semantic object의 relative 3D position을 계산하는 것은 error를 발생시키게 된다. 이런 sematic objects mapping의 error를 최소화 하기 위해 planar clustering and segmentation을 수행할 수 있으며, centroids와 nomal orientations과 함께 detected bounding boxes 안에 있는 모든 horizontal and vertical planar surfaces를 segment할 수 있다. 

3. B. 1) Normal Extraction

 

 

 

Centroid Extraction

 

 

  1. GRAPH SLAM
    1. VO/VIO ODOMETRY
    2. GRAPH CONSTRUCTION
    3. DATA ASSOCIATION
    4. GRAPH OPTIMIZATION
  2. EXPERIMENTS AND RESULTS
    1. STANDARD DATASET
      1. RGB-D SLAM TUM Dataset
        1. Freilburg3 Long Office Household (fr3/office):
        2. Freilburg2 XYZ (fr2/xyz):
        3. Freilburg2 RPY (ft2/rpy):
        4. Freilburg2 desk (fr2/desk):
      2. FIELD EXPERIMENTS
        1. System Setup
          1. Hand-held Setup:
          2. Aerial Robotic Setup:
        2. Results
          1. Long Hall Experiment:
          2. Long Corridor Experiment:
          3. Repetitive Trajectory with Several Semantic Objects:
          4. Random Trajectory with Several Semantic Objects:
          5. On-board Aerial Robot:
      3. DISCUSSIONS
        1. STANDARD DATASETS
        2. FIELD EXPERIMENTS
          1. Long Hall Experiment:
          2. Long Corridor Experiment:
          3. Repetitive Trajectory with Several Semantic Objects:
          4. Random Trajectory with Several Semantic Objects:
          5. On-board Aerial Robot:
      4. Conclusions

 

 

 

반응형