Donate to arXiv
Title:Asynchronous Methods for Deep Reinforcement Learning
Lataa PDF
Tiivistelmä: Ehdotamme käsitteellisesti yksinkertaista ja kevyttä kehystä syvälle vahvistusoppimiselle, joka käyttää asynkronista gradienttilaskeutumista syvien neuroverkkojen ohjainten optimointiin. Esittelemme asynkronisia muunnelmia neljästävakiovahvistusoppimisalgoritmista ja osoitamme, että rinnakkaisilla vahvistusoppijoilla on vakauttava vaikutus harjoitteluun, mikä mahdollistaa kaikkien neljän menetelmän menestyksekkään hermoverkko-ohjainten kouluttamisen. Parhaiten suoriutuva menetelmä, actor-criticin asynkroninen muunnos, ylittää Atari-verkkotunnuksen nykyisen huipputason, kun sitä koulutetaan puolet lyhyemmässä ajassa yhdellä moniydinsuorittimella GPU:n sijasta. Lisäksi osoitamme, että asynkroninen actor-critic onnistuu monenlaisissa jatkuvissa moottorinohjausongelmissa sekä uudessa tehtävässä, joka on satunnaisten 3D-suuntaisten sokkeloiden navigointi visuaalista syötettä käyttäen.