David Silver, quien lidera RL en DeepMind, dijo en un podcast hace unos meses que DeepMind construyó un sistema de meta-RL que aprendió su propio algoritmo de RL y superó todos los algoritmos diseñados por humanos.
9K