Ajouter une belle façon de visualiser l'objectif PPO au livre rlhf. Le cœur du gradient de politique est L~ R*A (R=ratio de politique, A = avantage). Rendre les bonnes actions plus probables jusqu'à un certain point. Rendre les mauvaises actions moins probables jusqu'à un certain point. Le min(...), et le signe & de l'avantage déterminent quelle ligne.
8,48K