Donate to arXiv

Title:Asynchronous Methods for Deep Reinforcement Learning

Authors:Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

Lataa PDF

Tiivistelmä: Ehdotamme käsitteellisesti yksinkertaista ja kevyttä kehystä syvälle vahvistusoppimiselle, joka käyttää asynkronista gradienttilaskeutumista syvien neuroverkkojen ohjainten optimointiin. Esittelemme asynkronisia muunnelmia neljästävakiovahvistusoppimisalgoritmista ja osoitamme, että rinnakkaisilla vahvistusoppijoilla on vakauttava vaikutus harjoitteluun, mikä mahdollistaa kaikkien neljän menetelmän menestyksekkään hermoverkko-ohjainten kouluttamisen. Parhaiten suoriutuva menetelmä, actor-criticin asynkroninen muunnos, ylittää Atari-verkkotunnuksen nykyisen huipputason, kun sitä koulutetaan puolet lyhyemmässä ajassa yhdellä moniydinsuorittimella GPU:n sijasta. Lisäksi osoitamme, että asynkroninen actor-critic onnistuu monenlaisissa jatkuvissa moottorinohjausongelmissa sekä uudessa tehtävässä, joka on satunnaisten 3D-suuntaisten sokkeloiden navigointi visuaalista syötettä käyttäen.