David Silver, quien dirige RL en DeepMind, dijo en un podcast hace unos meses que DeepMind construyó un sistema meta-RL que aprendió su propio algoritmo RL y venció a todos los algoritmos diseñados por humanos
9K