Випускаючи PPO — новий клас алгоритмів навчання з підкріпленням, які чудово справляються з імітованими робототехнічними завданнями: