[IROS 2020] Learning Motion Parameterizations of Mobile Pick and Place Actionsfrom Observing Humans in Virtual Environments

Learning Motion Parameterizations of Mobile Pick and Place Actions from Observing Humans in Virtual Environments (papercept.net)

Abstract

이 논문은 robot acting에 대한 가상 환경에서의 데이터를 실제 환경에서 로봇에 이전하여 그에 따라 성공적인 작업을 수행하기 위한 접근 방식과 파이프 라인을 제시한다.

Introduction

실제 환경에서 집안일과 같은 태스크를 풀기 위해선 다양한 데이터가 필요하다. 예를들어 아침을 차린다면, 어떤 물건을 어디에 두어야하는지 혹은, 어디에서 그 물건을 찾아야하며, 어떻게 물건을 잡는지 등등..

이런 지식들은 각 작업에 대한 전문적인 추론을 작성하거나 문제 영역에서 가능한 모든 솔루션에 대해 시행 착오 접근 방식을 통해 경험을 통해 학습해야 한다. 혹은 사람의 행동을 모방하여 학습 가능해야한다. 모방학습의 장점은 인간의 동작은 직관적이 물리학과 상식적인 추론을 사용가능하기 때문에 최적화에 쉽다. 반면에 기계와 메커니즘이 다르기 때문에 인간 동작의 매개 변수를 그대로 사용하기엔 어려움이 있다.

Virtual reality (VR) 기술을 점점 인기와 접근성이 올라가고 있다. VR 시스템은 사람과의 가상환경의 상호작용을 직관적으로 가능하게 해준다. 사람이 VR을 통해서 태스크를 수행하여 기록된 데이터는 로봇을 학습시키는데 강력한 소스로 사용된다. 또한 쉽게 여러 환경과 태스크 시나리오를 실행하게 해준다. 이러한 점들은 관계성, 시각성, 가구의 상태 그리고 외력 작용에 대한 물리 법칙에 직접적으로 보조해준다.

Process pipeline : 사람이 VR을 통해서 태스크를 수행하고, symbolic과 subsymbolic 관찰값이 기록된다. 모션 parameter 데이터들이 가상 환경의 로봇에게 투영되고 이 학습 결과를 실제 로봇에게 적용하여 태스크를 실행한다.

In this paper, we present an approach and an implemented pipeline for transferring symbolic and subsymbolic data acquired from VR human data onto the robot and for adapting it accordingly to achieve successful task execution (see Figure 1).

가상환경과 실제환경에서의 차이가 있기 때문에 바로 적용이 불가능하다(로봇과 사람의 물리적 차이, vr 환경과 실제 환경에서의 태스크의 문맥적 차이) . 따라서 해당 논문에서는 각 로봇의 실험환경과 태스크를 일반화 시키는 접근법을 제시한다. 또한 실험적인 분석을 통해 어떤 데이터가 전이가 가능한지에 대한 논의를 진행한다. 중요한 특성으로는 사람을 통해 얻은 지식은 white box 방식이라는 점이다. end-to-end 접근법은 고차원이고 black box알고리즘이라는 점과 반대로 문제를 더 작은 문제로 나눠서 factorize한다. 따라서 학습된 모델은 직접적으로 모션 파라미터에 상응하고 무엇이 좋은 영향과 나쁜 영향을 미치는 지에 대해서 쉽게 추적이 가능하다. 이런 white box 모델은 다른 문맥에 맞춰 스케일링 하기에도 이점이 있으며 재사용이 가능한다.

Acquiring data by observing human in VR

이번 섹션에서는 짧게 어떻게 데이터가 생성되고, 저장되며 접급되는지를 요약한다.

사람에게 정해진 태스크를 수행하도록 요청한다. 진행되는 동안 subsybolic(경로와 포즈)와 symbolic(행동과 사건) 데이터를 기록한다. 가상환경은 knowledge 기반으로 구성되어 있다. 잡기와 같은 행동이나 물리적 사건은 기록되며 물체의 ontological type도 함께 기록된다.

태스크 수행동안 데이터는 두가지 클래스로 저장된다.

1. low-level high-frequency subsymbolic data를 MongoDB 데이터 베이스에 저장- 어느 타임스텝에서도 완전한 상태로 재구성하는 것을 가능하게 해줌

2. High-level symbolic data과 환경의 semantic한 표현을 OWL ontological 형태로 저장

Motion parameters of mobile pick and place

로봇 컨트롤 프로그램을 plans라고 부르며 행동 수행을 할때의 명령이다. 시스템 상에서 plan들은 action descriptions으로 나타낸다. 예를 들어 :

ontological type에서 cup에 대한 fetching이라는 동작을 묘사하면 위와 같다.

- 마무리는 나중에!

728x90

'공부쓰 > Paper reviewth' 카테고리의 다른 글

[CoRL 2019]Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinfo (2)	2021.06.20
[ICLR 2018] Intrinsic motivation and automatic curricula via asymmetric self-play (1)	2021.02.16
[CoRL 2020] Learning Latent Representations to Influence Multi-Agent Interaction (2)	2021.02.05