Девід Сільвер, який очолює RL у DeepMind, сказав у подкасті кілька місяців тому, що DeepMind побудував систему meta-RL, яка вивчила свій власний алгоритм RL і перевершила всі алгоритми, розроблені людиною
9,44K