لم أقم بالتغريد كثيرا في هذين الشهرين الماضيين حيث قضيت وقتا في تعلم وتجربة تقنيات RL المختلفة. متحمس لمشاركة بعض WIP قريبا: 1. وصفة الحوسبة المثلى لتدريب GRPO 2. أداة تعمل بالطاقة RL لتعزيز الخصوصية في تفاعلات LLM كانت التجارب واعدة 👀
‏‎3.79‏K