Thêm một cách hay để hình dung mục tiêu PPO vào cuốn sách rlhf. Cốt lõi của gradient chính sách là L~ R*A (R=tỷ lệ chính sách, A = lợi thế). Tăng khả năng thực hiện các hành động tốt lên đến một mức độ nào đó. Giảm khả năng thực hiện các hành động xấu xuống đến một mức độ nào đó. Giá trị min(...), & dấu của lợi thế xác định đường nào.
9,08K