PPO:n julkaiseminen, uusi vahvistusoppimisalgoritmien luokka, joka on erinomainen simuloiduissa robotiikkatehtävissä: