David Silver, yang memimpin RL di DeepMind, mengatakan di sebuah podcast beberapa bulan yang lalu bahwa DeepMind membangun sistem meta-RL yang mempelajari algoritma RL-nya sendiri dan mengalahkan semua algoritme yang dirancang manusia
9,44K