Donate to arXiv
Title:Asynchrone Methoden für Deep Reinforcement Learning
Download PDF
Abstract: Wir schlagen einen konzeptionell einfachen und leichtgewichtigen Rahmen für Deep Reinforcement Learning vor, der asynchronen Gradientenabstieg für die Optimierung von Deep Neural Network Controllern verwendet. Wir stellen asynchrone Varianten von vier Standard-Verstärkungslernalgorithmen vor und zeigen, dass parallele Lerner einen stabilisierenden Effekt auf das Training haben, so dass alle vier Methoden erfolgreich neuronale Netzsteuerungen trainieren können. Die leistungsstärkste Methode, eine asynchrone Variante von Actor-Critic, übertrifft den aktuellen Stand der Technik auf der Atari-Domäne, während sie in der Hälfte der Zeit auf einer einzelnen Multi-Core-CPU anstatt auf einer GPU trainiert. Darüber hinaus zeigen wir, dass die asynchrone Actor-Kritik bei einer Vielzahl von kontinuierlichen motorischen Kontrollproblemen sowie bei einer neuen Aufgabe zur Navigation in zufälligen 3D-Labyrinthen mit visuellem Input erfolgreich ist.