Выпуск PPO, нового класса алгоритмов обучения с подкреплением, которые превосходно справляются с задачами симулированной робототехники: