為rlhf書籍添加一種可視化PPO目標的好方法。策略梯度的核心是L~ R*A(R=策略比率,A=優勢)。 使良好行為在一定程度上更有可能。 使不良行為在一定程度上更不可能。 min(...)和adv的符號決定了哪條線。
7.63K