Donate to arXiv
Título:Métodos Assíncronos para Aprendizagem do Reforço Profundo
Download PDF
Resumo: Propomos uma estrutura conceitualmente simples e leve para a aprendizagem do reforço profundo que utiliza a descida de gradiente assíncrono para a otimização de controladores de redes neurais profundas. Apresentamos variantes assíncronas de algoritmos de aprendizagem de reforço de quatro padrões e mostramos que os apuradores de fator paralelo têm um efeito estabilizador no treinamento, permitindo que os quatro métodos treinem com sucesso os controladores de redes neurais. O método de melhor desempenho, uma variante assíncrona de actor-crítico, supera o estado actual da arte no domínio Atari enquanto treina durante metade do tempo numa única CPU multi-core em vez de numa GPU. Além disso, mostramos que a variante assíncrona de actor-crítico sucede uma grande variedade de problemas de controlo motor contínuo, bem como numa nova tarefa de navegação em labirintos 3D aleatórios utilizando uma entrada visual.