David Silver, que lidera o RL na DeepMind, disse em um podcast há alguns meses que a DeepMind construiu um sistema meta-RL que aprendeu seu próprio algoritmo RL e superou todos os algoritmos projetados por humanos
9K