#multi-agent system, #human-robot interaction, #reinforcement learning
Abstract
끊임없이 사람이나 로봇이 연결되는 것은 어렵다 왜냐면 agent는 정지되지 않은 상태이기 때문이다.
사람에게 영감을 받아 로봇이 명확한 모델이 모든 low-level 액션에 필요하지 않다는 것을 깨달았다. 대신에 latent strategy를 high-level agent에서 뽑아낸다. ego agent가 그것의 행동과 다른 agent들의 미래 strategy의 관계를 인지하는 강화학습 기반의 프레임워크를 제안한다. ego agent는 이런 latent 역학을 다른 agent에게 영향을 끼치고 결과적으로 그들을 같이 적응 가능한 policy들로 인도한다. 여러 가상 도메인과 리월월드, 하키 게임을 통해서 성능을 평가했다.
1 Introduction

로봇 러닝은 많은 진보를 이뤘지만 대부분의 알고리즘은 로봇의 고립된 action을 다룬다. 실제로는 사람이나 다른 학습하는 에어전트 로봇과의 상호작용은 불가하다. 다른 에이전트들이 다른 로봇의 응답하여 그들의 행동을 업데이트하고 연속적으로 로봇 러닝의 환경을 변경하는 것은 어려운 문제이다. 자율주행 자동차가 사람이 운전하는 차 근처에서 교통체증이나 규제에 맞추기 위해 속도를 조절하는 것을 예로 들어 볼 것이다. 처음 자율주행 자동차를 마주하면, 당신은 조심스럽게 행동할 것이다. : 자율주행 자동차가 천천히 속도를 줄이면 당신 또한 속도를 죽일 것이다. 하지만 그것이 명확한 이유없이 속도를 줄이면 당신의 생각은 바뀔 것이다. 만약에 다음에 자율주행 자동차를 마주치면 당신은 아무 조심성없이 운전할 것으로... . 자율주행자동차는 혼란스러움과 당혹스러움을 남기면서 당신의 행동을 업데이트할 것이다.
다른 에이전트들과 같이 적응을 하기 위해서 , 로봇들은 어떻게 다른 에이전트가 바뀔지, 그리고 모델들이 어떻게 이것들의 액션이 다른 에어전트들에게 숨겨진 의도에 영향을 끼칠지 예상해야한다. 이런 상호 작용을 연구하는 다른 연구들은 다른 에이전트들에게 대해 제한적인 가정을한다. 다른 에이전트 들은 고정되어있고, 다른 에어전트들 간에 학습 절차 공유하고, 다른 에이전트들의 행동과 깔린 의도를 직접적으로 접근하고, 의도된 공간을 수정해서 단순화시킨다.
대조적으로, 이 논문에서는 ego agent가 반복적으로 정지되어 있지 않고, 독립적으로 콘트롤 되는, 그리고 부분적으로 관찰 가능한 에이전트들과 반복적으로 상호작용하는 것을 일반적인 상황으로 본다. 사람들은 매일 이런 걷기와 운전과 같은 시나리오들을 명확한 레벨링 없이 해낸다. 이런 것에서 다음의 아이디어를 얻었다.
" 에고 에이전트는 다른 에이전트의 낮은 수준의 행동만을 관찰하지만, 인간과 인간의 상호 작용에서와 마찬가지로 높은 수준의 정책 표현을 유지하는 것으로 충분합니다. 우리는 이것을 참조하여 잠재 전략으로 표현하고 잠재 전략이 시간이 지남에 따라 바뀔 수 있음을 인식합니다. "
다른 에이전트의 정책을 학습하여 로봇이 어떻게 현재 상호작용 동안 응답하는지를 예측하게 한다. 더 나아가, latent strategy가 시간에 따라 어떻게 변하는지를 모델링하여 로봇의 행동이 다른 에이전트들에게 어떤 영향을 끼치는지 예상하도록 한다. 전반적으로, 우리는 다른 에이전트의 정책에 대한 잠재적 표현을 활용한다. 고정되지 않은 다중 에이전트 상호 작용에서 학습에 다음과 같은 기여를 한다.
이 부분은 구찮아서 번역 돌려써요..
Learning Latent Representations : 이러한 전략에 대응하기위한 잠재 전략과 정책을 모두 학습하는 다중 에이전트 상호 작용을위한 RL 기반 프레임 워크를 소개합니다. 우리의 프레임 워크는 에고 에이전트의 행동에 따라 다른 에이전트의 전략이 어떻게 변하는 지 암시 적으로 모델링합니다.
Influencing Other Agents : 우리가 제안한 접근 방식을 활용하는 자아 에이전트는 특히 일부 전략이 다른 전략보다 공동 적응에 더 적합한 경우 다른 에이전트의 잠재 전략에 영향을 미치도록 정책을 의도적으로 변경하도록 권장됩니다.
Testing in Multi-Agent Settings : 우리는 4 개의 시뮬레이션 환경과 2 개의 7DoF 로봇 팔이 에어 하키를하는 실제 로봇 실험에서 최첨단 방법에 대한 접근 방식을 비교합니다. 우리의 접근 방식은 대안을 능가하고 다른 에이전트에 영향을 미치는 방법을 배웁니다.
2 Related Work
Opponent Modeling. 이전의 mutli-agent RL과 HRI 연구들은 다른 agent들을 모델링하여 non-stationary 상호작용을 연구했다. 상대방의 의도나 정책에 대한 명시적인 모델링 및 추론은 계산적으로 빠르게 처리하기 어려워 질 수 있으므로 다른 에이전트의 행동에 대한 저차 원적 표현을 학습하여 해결한다.
Multi-Agent RL. 대체 접근 방식은 중앙 집중식 교육 프레임워크를 채택하거나 에이전트간 통신 프로토콜을 학습한다. 하지만 이 연구에서는 중앙 집중화나 통신을 하지 않기 때문에 사람과 로봇의 상호작용과 같은 다중 에이전트 시스템에서 작동할 수 있다.
Influence Through Interactions. 다른 에이전트의 정책 업데이트를 직접 구성하고 에이전트의 작업간의 상호 정보를 최대화함으로써 MARL에서 영향력있는 행동이 나타난다. 다른 연구들은 인간에게 영향을 미치는 행동을 학습하기 위해서 로봇 행동이 인간 행동에 미치는 영향을 모델링한다. 이 연구에서는 다른 에이전트의 보상에 접근하지 않고 영향을 주는 법을 학습한다.
Partial Observability in RL. 다른 에이전트의 숨겨진 정책의 잠복 상태인 부분적으로 관찰가능한 POMDP의 인스턴스화를 사용한다. Representation 학습을 기반으로 한 근사된 POMDP 솔루션은 이미지 관찰과 고차원 state와 action을 사용한다.
Robotic Air Hockey. 시각 정보와 빠른 속도의 조작에 초점을 맞춘 에어 하기 연구가 이뤄졌다. 비슷한 목적을 상대에 따라 정책을 전환하는 시스템을 수기로 설계하고 자율적으로 배우는 것을 목표로 한다.
3 Repeated Interactions with Non-Stationary Agents
이번 섹션에서 우리는 문제를 형식화한다. N개의 다른 에이전트들의 환경으로 확장되지만, 우리는 ego agent와 다른 agent들로 이루어진 dyads에 집중한다. 이 에이전트들은 상대 팀이 될 수도 있고 파트너가 될 수 있다.
앞선 자율주행자동차의 옵션을 예로 들어보면 교통 체증과 규제가 있는 지역에서의 안전을 위해서 ego agent인 자율주행 자동차가 사람이 운전하는 차의 속도를 조절하는 것이다. 이것은 특정 자율주행 자동차와 사람이 운전하는 차는 매일 마주친다. 이런 반복적인 상호작용에서 사람들은 계속적으로 그들의 정책을 업데이트한다 (예를 들어 처음엔 자율주행 자동차를 피하다가 믿음 쌓이면 그 뒤를 따라가는 것).
자율주행자동차는 사람이 운전하는 자동차의 속도와 조향 각도를 감지하는 상호작용 과정에 접근 가능하다. 이곳의 통락겨에서 영감을 얻은 자율 주행 자동차는 이런 속도나 조향 각도를 조절하는 것이 낮은 수준의 행동이 높은 수준의 의도의 결과의 가정이라고 본다. 사람이 운정하는 자동차의 정책은 latent 정책 z에 의해서 관찰된다.
Strategy Affects Transitions and Rewards During Interaction.

ego agent의 관점에서 다른 agent의 정책은 환경에 영향을 준다. 만약에 사람의 정책이 자율 주행 자동차를 피하는 것 이라면, 이것은 다른 자동차들 또한 피하도록 유도하거나(운동 역학을 달리 봄), 또는 자율 주행 자동차가 성공적으로 막는 것으로(보상을 바꿈)...!
Strategy Changes Between Interactions. i번째 상호작용에서 ego agent의 행동의 응답으로 다른 agent들의 정책은 i+1번째 상호작용에서 변경됩ㄴ다. 예를들어 따라오는 자율 주행 자동차가 갑자기 브레이크를 밟는다고 생각해보면, 그 다음에는 이 카를 마주치면 이것은 자연적으로 차선을 바꾸고, 속도를 높이고, 다른 곳으로 갈 것이다. 우리는 이런 차이를 포착하여 로우 레벨 정책을 하이 레벨 정책을 통해 변경시킨다.

Strategies are Influenced Across Repeated Interactions. 상호작용 "동안"과 "사이"의 조합하여, 문제를 수식화하는 것에 도달했다. 반복적인 상호작용에서 ego agent는 HIP-MDP들을 마주한다. ego agent의 목적은 누적 보상을 최대화하는 것이다. 다른 agent들이 ego agent들에 대응하여 정책을 변경하기 때문에 생각보다 간단하지 않다(갑자기 차를 멈추면 다른 사람은 즉시 속도를 늦추지만, 계속 반복되면 미래에는 사람은 아예 자율 주행 자동차를 피해버릴 확률이 높다).
4 Learning and Influencing Latent Intent (LILI)

위 그림(fig 2)를 통하여 전반을 보면, ego agent는 low-level observation을 통해 다른 에이전트의 잠재 정책을 학습하는 인코더와 잠재 정책을 통해 생성되는 policy를 동시에 학습한다. 각 상호 작용 동안 로봇은 마지막 상호 작용을 기반으로 다른 에이전트의 전략이 무엇인지 예측하고 전략 조건 정책을 사용하여 반응한다.
4.1 Learning Latent Strategies from Local Observations
다른 에이전트의 행동을 표현하는 것을 학습하는 것이다. i번째 상호 작용의 ego agent의 경험은 state, action 그리고 보상의 트랙제토리이다.

그러나 실제 다른 에이전트의 actual strategy는 명확하게 관찰되지 않는다.
이것들을 라벨링하기 위해서, 다른 에이전트들의 잠재 전략은 어떻게 그들이 ego agent들의 행동에 반응하는지에 따라 결정된다는 것을 발견했다(현재 상호 작용 동안의 ego agent의 경험된 역학과 보상 함수에 따라서 결정되는) 따라서 잠재 전락을 디코더를 이용해서 재구성한다. 주어진 상호작용 시퀀스동안 디코더와 인코더를 아래의 식을 통해 학습시킨다.

인코더가 z를 임베딩하고 디코더가 다음 상태와 보상을 현재의 상태와 액션 그리고 임베딩된 z를 통해 출력한다. 인코더가 다른 애전트의 다음 전략을 예측하기 때문에 특히 중요하다.
4.2 Reinforcement Learning with Latent Strategies
다른 에이전트의 잠재 전략에 대한 예측이 주어지면 ego agent는 지능적으로 반응할 수 있다. 잠재 전략에는 다른 정책이 필요하다. 따라서 ego agent는 π_θ를 배운다. ego agent는 잠재 전략 예측에 따라 결정을 내린다.
4.3 Influencing by Optimizing for Long-Term Rewards
궁극적으로 원하는 것은 ego anget가 단순히 잠재 전력을 예측하여 반응한 것이 아니다. 지능 에이전트가 전략에 적극적으로 영향을 주어 반복적인 상호 작용에 대한 보상을 극대화하는 것이다.
능동적 행동의 핵심은 인코더이고 이것은 ego agent의 잠재 역학의 근사치이다.
ego agent가 인코더를 배우면 의도적으로 상호작용 타우를 변경하여 원하는 z_i+1을 갖도록 다른 에이전트에게 영향을 줄 수 있다.
영향력 있는 행동을 학습하려면 ego agent 의 폴리시를 여러 상호작용 동안의 리워드를 극대화해야한다.

4.4 Implementation

5 Experiments
이 접근 방식의 주요 이점은 ego agent가 낮은 수준의 경험을 높은 수준의 표현에 연결할 수 있다는 것이다. 하지만 ego agent가 높은 수준의 표현을 동시에 학습하고 이것을 의사 결정에 지능적으로 활요할 수 있는지 여부는 확실하지 않다. 따라서 다른 접근 방식과 비교한다. ego agent가 다른 agent들에게 영향을 미치는 방법을 배우는지와 이 영향으로 성능이 향상되는 지에 중점을 둔다.

베이스 라인은 아래와 같다.

이 접근법에는 2가지 버전이 존재한다. LILI (No Influence)는 에고 에이전트가 다른 에이전트의 미래 행동에 영향을 미칠 수있는 방식을 고려하지 않고 현재 상호 작용에 대한 기대 수익을 극대화하는 결정을 내리도록 훈련된 단순화 된 모델이다. 우리의 완전한 접근 방식을 LILI라고 한다. 자아 에이전트는 자신의 행동이 다른 에이전트의 다운 스트림 정책에 어떤 영향을 미칠 수 있는지 고려하면서 여러 상호 작용에서 보상 합계를 최대화하려고 한다.

point mass에서의 결과이다. LILAC을 보면 타겟과의 거리를 짧게하는 것의 가장 안전한 선택인 원의 중심으로 위치하는 것을 확인할 수 있다. LILI는 타겟에 위치하도록 하고 시작 위치도 영향이 있을 때 타겟 위치와 가깝게 시작한다.

다른 환경에서의 결과인데 주의할 점은 LILI의 두 버전이 여기서는 같게 동작한다는 것이다.


다른 에이전트들의 행동의 영향을 줘서
ego agent가 더 큰 보상을 얻을 수 있게 유도한다는 것이 인상적인 논문이었다.
끝!