Simüle edilmiş robotik görevlerde üstün olan yeni bir güçlendirme öğrenme algoritması sınıfı olan PPO'nun yayımlanması: