إضافة طريقة لطيفة لتصور هدف PPO إلى كتاب rlhf. النواة لتدرج السياسة هو L ~ R * A (R = نسبة السياسة ، A = ميزة). اجعل الإجراءات الجيدة أكثر احتمالا إلى حد ما. اجعل الأفعال السيئة أقل احتمالا إلى حد ما. تحدد علامة min(...) و adv أي سطر.
‏‎8.48‏K