Métodos estocásticos de redução de variância para avaliação de políticas
A avaliação de políticas é um passo crucial em muitos procedimentos de aprendizagem de reforço, que estima uma função de valor que prevê o valor de longo prazo dos estados sob uma determinada política. Neste artigo, nos concentramos na avaliação de políticas com aproximação linear de funções em um conjunto de dados fixo. Primeiramente, transformamos o problema de avaliação de política empírica em um problema de ponto de sela convexo-côncavo (quadrático) e, em seguida, apresentamos um método de gradiente em lote dual primal, bem como dois métodos de redução de variância estocástica para resolver o problema. Esses algoritmos são dimensionados linearmente no tamanho da amostra e na dimensão do recurso. Além disso, eles alcançam convergência linear mesmo quando o problema do ponto de sela tem apenas forte concavidade nas variáveis duais, mas não há forte convexidade nas variáveis primárias. Experimentos numéricos sobre problemas de benchmark demonstram a eficácia de nossos métodos. Clique aqui para saber mais