Een mooie manier toevoegen om het PPO-doel te visualiseren in het rlhf-boek. De kern voor policy-gradient is L~ R*A (R=beleid ratio, A = voordeel). Maak goede acties waarschijnlijker tot op een bepaald punt. Maak slechte acties minder waarschijnlijk tot op een bepaald punt. De min(...), & teken van voordeel bepaalt welke lijn.
9,08K