David Silver, que lidera o RL na DeepMind, disse em um podcast há alguns meses que a DeepMind construiu um sistema de meta-RL que aprendeu seu próprio algoritmo de RL e superou todos os algoritmos projetados por humanos.
9K