Donate to arXiv

Title:Asynchronous Methods for Deep Reinforcement Learning

Authors:Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

Download PDF

Abstract: Proponiamo una struttura concettualmente semplice e leggera per il deepreinforcement learning che utilizza la discesa del gradiente asincrona per l’ottimizzazione dei controllori delle reti neurali profonde. Presentiamo varianti asincrone di quattro algoritmi standard di apprendimento per rinforzo e dimostriamo che i fattori paralleli di apprendimento hanno un effetto stabilizzante sulla formazione permettendo a tutti e quattro i metodi di formare con successo i controllori delle reti neurali. Il metodo più performante, una variante asincrona di actor-critic, supera l’attuale stato dell’arte sul dominio Atari mentre si allena per metà del tempo su una singola CPU multi-core invece che su una GPU. Inoltre, dimostriamo che l’actor-critic asincrono ha successo su un’ampia varietà di problemi di controllo motorio continuo e su un nuovo compito di navigazione di labirinti 3D casuali usando un input visivo.