Donate to arXiv

Název:Asynchronous Methods for Deep Reinforcement Learning

Autoři:Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

Stáhnout PDF

Abstrakt: Navrhujeme koncepčně jednoduchý a lehký rámec pro deepreinforcement learning, který využívá asynchronní sestup gradientů pro optimalizaci regulátorů hlubokých neuronových sítí. Představujeme asynchronní varianty čtyř standardních algoritmů reinforcement learningu a ukazujeme, že paralelní učitele mají stabilizační efekt na trénink, což umožňuje všem čtyřem metodám úspěšně trénovat regulátory neuronových sítí. Nejvýkonnější metoda, asynchronní varianta actor-critic, překonává současný stav techniky na doméně Atari při trénování za poloviční dobu na jednom vícejádrovém CPU namísto GPU. Dále ukazujeme, že asynchronní actor-critic uspěje v široké škále problémů spojitého řízení motorů i v nové úloze navigace v náhodných 3D bludištích pomocí vizuálního vstupu.