Donate to arXiv
Title:Asynchronous Methods for Deep Reinforcement Learning
Download PDF
Rezumat: Propunem un cadru simplu din punct de vedere conceptual și ușor pentru învățarea de întărire profundă care utilizează coborârea asincronă a gradientului pentru optimizarea controlorilor rețelelor neuronale profunde. Prezentăm variantele asincrone a patru algoritmi standard de învățare prin întărire și arătăm că învățarea paralelă are un efect stabilizator asupra instruirii, permițând tuturor celor patru metode să instruiască cu succes controlori de rețele neuronale. Cea mai performantă metodă, o variantă asincronă a metodei actor-critic, depășește nivelul actual de vârf în domeniul Atari, în timp ce se antrenează în jumătate din timp pe o singură unitate centrală de procesare cu mai multe nuclee, în loc de un GPU. În plus, arătăm că actor-critic asincron reușește să rezolve o mare varietate de probleme de control motor continuu, precum și o nouă sarcină de navigare în labirinturi 3D aleatorii folosind o intrare vizuală.