Дэвид Сильвер, который возглавляет RL в DeepMind, сказал в подкасте несколько месяцев назад, что DeepMind создала систему мета-RL, которая выучила свой собственный алгоритм RL и обошла все алгоритмы, разработанные людьми.
9K