Doneer aan arXiv

Titel:Asynchronous Methods for Deep Reinforcement Learning

Auteurs:Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

Download PDF

Abstract: We stellen een conceptueel eenvoudig en lichtgewicht raamwerk voor deepreinforcement learning voor dat gebruik maakt van asynchrone gradiënt afdaling voor de optimalisatie van diepe neurale netwerk controllers. We presenteren asynchrone varianten van vier standaard algoritmen voor versterkingsleren en tonen aan dat parallelleactor-leerders een stabiliserend effect hebben op de training, waardoor alle vier de methodes met succes neurale netwerkcontrollers kunnen trainen. De best presterende methode, een asynchrone variant van actor-critic, overtreft de huidige state-of-the-art op het Atari domein terwijl er de helft van de tijd getraind wordt op een enkele multi-core CPUin plaats van een GPU. Verder laten we zien dat asynchrone actor-kritiek slaagt op een breed scala van continue motorische controle problemen, alsmede op een nieuwe taak van het navigeren willekeurige 3D doolhoven met behulp van een visuele input.