공부쓰/Paper reviewth (7) 썸네일형 리스트형 [IROS 2020] Learning Motion Parameterizations of Mobile Pick and Place Actionsfrom Observing Humans in Virtual Environments Learning Motion Parameterizations of Mobile Pick and Place Actions from Observing Humans in Virtual Environments (papercept.net) Abstract 이 논문은 robot acting에 대한 가상 환경에서의 데이터를 실제 환경에서 로봇에 이전하여 그에 따라 성공적인 작업을 수행하기 위한 접근 방식과 파이프 라인을 제시한다. Introduction 실제 환경에서 집안일과 같은 태스크를 풀기 위해선 다양한 데이터가 필요하다. 예를들어 아침을 차린다면, 어떤 물건을 어디에 두어야하는지 혹은, 어디에서 그 물건을 찾아야하며, 어떻게 물건을 잡는지 등등.. 이런 지식들은 각 작업에 대한 전문적인 추론을 작성하거나 문제.. [CoRL 2019]Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinfo 오랜만에 논문을 블로그에 포스팅한다. Meta-reinforcement learning 에 대한 흐름을 보려고 찾아본 논문이다. Keywords: #meta-learning, #multi-task reinforcement learning, #benchmarks https://arxiv.org/pdf/1910.10897.pdf Abstract : 이 논문에서는 open-source simulated benchmark를 제시한다. 완전히 새롭게 행해진 태스크를 통해 가속화하여 개발할 수 있는 알고리즘을 개발하는 것이 목표. Meta reinforcemnt learning과 muli-task learning의 7개의 sota(state of the art) 모델을 사용해서 평가했는데 성공적으로 학습했다. 1 .. [ICLR 2018] Intrinsic motivation and automatic curricula via asymmetric self-play Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play 0. Abstract Alice와 Bob이라는 이름으로 똑같은 agent를 상대방에 대항하도록 배치한다. Alice는 Bob이 풀어야할 태스크를 제시하고, Bob은 task를 완수한다. Alice는 일련의 행동을 한 후 태스크를 "제안"하고 Bob은 그것들 취소하거나 반복한다. 적절한 보상을 통하여 Alice와 Bob은 자동으로 탐색 커리큘럼을 출력하여 unsupervised 학습이 가능하도록 한다. 1. Introduction model-free RL 접근법은 많은 양의 샘플을 사용한다는 점에서 비효율적이다. 명확한 환경 모델이 없다는 것은 agent가 반드시 밑바닥부터 환경을 .. [CoRL 2020] Learning Latent Representations to Influence Multi-Agent Interaction #multi-agent system, #human-robot interaction, #reinforcement learningarxiv.org/pdf/2011.06619 Abstract 끊임없이 사람이나 로봇이 연결되는 것은 어렵다 왜냐면 agent는 정지되지 않은 상태이기 때문이다. 사람에게 영감을 받아 로봇이 명확한 모델이 모든 low-level 액션에 필요하지 않다는 것을 깨달았다. 대신에 latent strategy를 high-level agent에서 뽑아낸다. ego agent가 그것의 행동과 다른 agent들의 미래 strategy의 관계를 인지하는 강화학습 기반의 프레임워크를 제안한다. ego agent는 이런 latent 역학을 다른 agent에게 영향을 끼치고 결과적으로 그들을 같이 적응.. 대망(大亡)의 SAC(Soft Actor-Critic) 논문 정리 Soft Actor-Critic은 정말 연이 깊은 알고리즘이다.잇님들의 꾸준한 요청이 있었던 (자신감이 떨어져 올리고 싶지 않았던) sac 논문 정리를 올려본다.수식이 많은 논문은 내용이 어떻든 읽는데 속도가 너무 오래 걸리는 것 같다!하지만 열심히 썼으니 누군가에게는 도움이 되기를 >_ [CoRL 2020] Accelerating Reinforcement Learning with Learned Skill Priors corlconf.github.io/paper_44/Accelerating Reinforcement Learning with Learned Skill PriorsPublications accepted to CoRL 2020.corlconf.github.ioyoutu.be/6FSC2yeJ98U#Reinforcement Learning, #Skill Learning, #Transfer Learning **공부용으로 적는 것이니 정확하지 않음** : Abstract 문제점 : 지금 강화학습은 새로운 task를 학습하기 위해서는 prior experience에 강하게 의존함. + 모든 task들을 기본적인 것부터 학습하려 함. 그래서 모든 걸 다 똑같은 확률로 학습할 필요가 없으니까 전체 skill prior(사.. 논문 읽는 나만의 꿀팁s... 처음 논문을 읽을 때에는 너무 요령 없이 읽고 어려워서 논문 하나를 읽는데 너무 긴 시간이 소요되었다. 물론 지금도 다른 사람들에 비해서는 긴 시간이 걸리는 것 같다. 내가 논문이 읽기 어려웠던 이유들은 1. 낮은 집중력 2. 영어로 되어있어서 이해도가 낮음 3. 모르는 개념이나 수식들에 막힘의 무한 반복이었던 것 같다. 제일 큰 문제는 집중력이 너무 낮아서겠지만 ㅎ.ㅎ 다른 사람들은 어떻게 논문을 읽는지 궁금했다. 내가 검색해봤던 가장 보편적인 방법은 논문을 각각 다른 포인트로 세 번을 보는 방법인데(요령 없는 사람은 추천 ★★★★) 처음 볼 때에는 abstract, introduction, conclusion들만 보거나 소제목을 보면서 전체적으로 무슨 내용을 하는지 큼지막하게 보고 두 번째로 읽을 땐.. 이전 1 다음