David Silver, som leder RL på DeepMind, sa i en podcast för några månader sedan att DeepMind byggde ett meta-RL-system som lärde sig sin egen RL-algoritm och slog alla mänskligt designade algoritmer
9K