Donate to arXiv
Title:Asynchronous Methods for Deep Reinforcement Learning
Descargar PDF
Resumen: Proponemos un marco conceptualmente simple y ligero para el aprendizaje de refuerzo profundo que utiliza el descenso de gradiente asíncrono para la optimización de controladores de redes neuronales profundas. Presentamos variantes asíncronas de cuatro algoritmos estándar de aprendizaje por refuerzo y mostramos que los aprendices de actores paralelos tienen un efecto estabilizador en el entrenamiento que permite a los cuatro métodos entrenar con éxito los controladores de las redes neuronales. El método de mejor rendimiento, una variante asíncrona de actor-crítico, supera el estado actual de la técnica en el dominio Atari mientras se entrena durante la mitad de tiempo en una sola CPU multinúcleo en lugar de una GPU. Además, mostramos que el actor-crítico asíncrono tiene éxito en una amplia variedad de problemas de control motor continuo, así como en una nueva tarea de navegación por laberintos 3D aleatorios utilizando una entrada visual.