Donate to arXiv
Title:Asynchronous Methods for Deep Reinforcement Learning
Download PDF
Abstract: Proponiamo una struttura concettualmente semplice e leggera per il deepreinforcement learning che utilizza la discesa del gradiente asincrona per l’ottimizzazione dei controllori delle reti neurali profonde. Presentiamo varianti asincrone di quattro algoritmi standard di apprendimento per rinforzo e dimostriamo che i fattori paralleli di apprendimento hanno un effetto stabilizzante sulla formazione permettendo a tutti e quattro i metodi di formare con successo i controllori delle reti neurali. Il metodo più performante, una variante asincrona di actor-critic, supera l’attuale stato dell’arte sul dominio Atari mentre si allena per metà del tempo su una singola CPU multi-core invece che su una GPU. Inoltre, dimostriamo che l’actor-critic asincrono ha successo su un’ampia varietà di problemi di controllo motorio continuo e su un nuovo compito di navigazione di labirinti 3D casuali usando un input visivo.