Ich habe in den letzten zwei Monaten nicht viel getwittert, da ich Zeit damit verbracht habe, verschiedene RL-Techniken zu lernen und zu experimentieren. Ich freue mich darauf, bald einige WIP zu teilen: 1. Berechnung des optimalen Rezepts für das GRPO-Training 2. RL-gestütztes Tool zur Verbesserung der Privatsphäre in LLM-Interaktionen Die Experimente waren vielversprechend 👀
3,76K