Donner à arXiv
Titre:Méthodes asynchrones pour l’apprentissage par renforcement profond
Télécharger PDF
Résumé : Nous proposons un cadre conceptuellement simple et léger pour l’apprentissage par renforcement profond qui utilise la descente de gradient asynchrone pour l’optimisationdes contrôleurs de réseaux neuronaux profonds. Nous présentons des variantes asynchrones de quatre algorithmes standards d’apprentissage par renforcement et montrons que les apprenants parallèles ont un effet stabilisateur sur la formation, permettant aux quatre méthodes de former avec succès des contrôleurs de réseaux neuronaux. La méthode la plus performante, une variante asynchrone de l’acteur-critique, surpasse l’état actuel de l’art sur le domaine Atari tout en s’entraînant pendant la moitié du temps sur un seul CPU multi-cœur au lieu d’un GPU. En outre, nous montrons que l’actor-critic asynchrone réussit sur une grande variété de problèmes de contrôle moteur continu ainsi que sur une nouvelle tâche de navigation dans des labyrinthes 3D aléatoires en utilisant une entrée visuelle.