Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
0. Abstract
Alice와 Bob이라는 이름으로 똑같은 agent를 상대방에 대항하도록 배치한다. Alice는 Bob이 풀어야할 태스크를 제시하고, Bob은 task를 완수한다. Alice는 일련의 행동을 한 후 태스크를 "제안"하고 Bob은 그것들 취소하거나 반복한다. 적절한 보상을 통하여 Alice와 Bob은 자동으로 탐색 커리큘럼을 출력하여 unsupervised 학습이 가능하도록 한다.
1. Introduction
model-free RL 접근법은 많은 양의 샘플을 사용한다는 점에서 비효율적이다. 명확한 환경 모델이 없다는 것은 agent가 반드시 밑바닥부터 환경을 학습하여하 된다는 것을 의미한다. sparse reward일 때에는 에이전트의 경험의 작은 부분들만 폴리시 업데이트에 직결되고 이것은 비효율성에도 연결을 끼치게 된다.
이 논문에서는 에이전트가 상태간에 전환하는 방법을 최대한 효율적으로 학습하도록 외부 보상없이 환경에 대해 탐색하고 학습 할 수있는 에이전트를 위한 새로운 형태의 unsupervised learning을 제시한다.
2. Approach
이 논문에서는 "minds"를 Alice와 Bob으로 분리한다. 각 애이전트들은 그들만의 목적과 parameter들을 가지고 있다. Sefl-play episode동안 Alice의 역할은 Bob에게 풀어야할 태스크를 제안하고 밥은 그것을 수행하곤 한다.
핵심 아이디어는 Alice와 함께한 Bob의 Play는 그를 환경이 어떻게 작동하고 목표 태스크를 더 빨리 이해할 수 있도록 한다는 것이다.
이 접근법은 환경에 두가지 조건이 붙는다 : reversible 해야하며, 그들의 초기 상태로 리셋될 수 있어야한다. 이런 제한사항들은 난이도 결정과 복잡한 문제를 피할 수 있도록 한다.
이 두가지 시나리오에서 엘리스는 초기 상태 s_0에서 시작하고 움직이며 task를 제안한다. s_t 까지 일련의 움직임을 하고 멈춤 신호를 보낸 후 Bob에게 차례를 넘긴다. 역으로 Bob의 골은 s_0으로 돌아가는 것이고 리워드를 받는다. 부분적으로 관찰가능한 환경에서 Bob이 목적은 Alice의 초기 상태와 같은 관찰을 갖는 상태를 찾는 것이다. 리셋이 가능한 환경에서는 Alice가 Stop 신호를 보내면 환경이 초기화되고 Bob은 Alice의 초기 지점인 s_0에서 시작한다. 이때 Bob은 Alice의 action들을 반복한다.(아까처럼 역으로 진행하는 것이 아니라!)
두 가지 경우 모두 internal 리워드만을 받아서 에이전트는 supervisory signal 없이도 학습될 수 있다. 이러한 이유로 이것은 Alice와 Bob 모두 환경을 탐색하고 환경의 작동 방식을 비감독 학습이 가능해진다. 이 아이디어는 Self-play에서의 Bob의 경험은 그가 목표 태스크를 더 적은 에피소드를 통해서 학습할 수 있다는 것이다.
self-play에서 우리는 Alice와 Bob의 리워드 구조는 불가능한 위치로는 가지 않으면서 Alice가 Bob을 편안한 위치로 갈수있도록 권장할 수 있어야한다.
3. Related Work
GAN : GAN은 네거티브한 성격을 띄는 generator를 학습한다고 생각할 수 있다. 이런 관점에서 Alice는 Bob에게 negative한 generator 역할을 한다. Bob은 이 과제를 배척?하는 것이 아닌 해결하는 것을 목표로 한다.
-? 공개발행하려고 보니까 뒷부분 어디감 ㅜ아ㅡ아아아으라ㅡ아으ㅏ으앙