Donate to arXiv
Název:Asynchronous Methods for Deep Reinforcement Learning
Stáhnout PDF
Abstrakt: Navrhujeme koncepčně jednoduchý a lehký rámec pro deepreinforcement learning, který využívá asynchronní sestup gradientů pro optimalizaci regulátorů hlubokých neuronových sítí. Představujeme asynchronní varianty čtyř standardních algoritmů reinforcement learningu a ukazujeme, že paralelní učitele mají stabilizační efekt na trénink, což umožňuje všem čtyřem metodám úspěšně trénovat regulátory neuronových sítí. Nejvýkonnější metoda, asynchronní varianta actor-critic, překonává současný stav techniky na doméně Atari při trénování za poloviční dobu na jednom vícejádrovém CPU namísto GPU. Dále ukazujeme, že asynchronní actor-critic uspěje v široké škále problémů spojitého řízení motorů i v nové úloze navigace v náhodných 3D bludištích pomocí vizuálního vstupu.