Aggiungere un modo interessante per visualizzare l'obiettivo PPO al libro rlhf. Il nucleo per il policy-gradient è L~ R*A (R=rapporto di policy, A = vantaggio). Rendere le buone azioni più probabili fino a un certo punto. Rendere le cattive azioni meno probabili fino a un certo punto. Il min(...), e il segno di adv determinano quale linea.
7,63K