본문 바로가기

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

(1)

A2C 엉터리 정리 제일 최근에 가장 재밋게 읽었던 논문인 "The Ingredients of Real-World Robotic Reinforcement Learning" 에서도 그렇고 친구들이랑 얘기하면서도 자주 언급되는 Soft Actor-Critic(SAC)를 한번 정리해보려고 한다. SAC를 이해하려면 먼저 강화학습의 Actor-Critic에 대한 개념을 먼저 이해해야한다. Actor-Critic + A2C 강화학습은 에피소드마다만 학습할 수 있다는 단점이 있는데 에피소드가 길어지면 반환되는 값의 분산이 커져 학습속도가 느려지게 된다. 이 같은 단점을 극복하고 매 time step마다 학습할 수 있도록 한 것이 Actor-Critic 이다. Actor-critic은 Policy interation의 구조를 이용했고 ..

이전 1 다음

티스토리툴바