Lansarea PPO, o nouă clasă de algoritmi de învățare prin întărire care excelează la sarcini robotice simulate: