Non ho twittato molto in questi ultimi due mesi poiché ho trascorso del tempo a imparare e sperimentare con varie tecniche di RL. Sono entusiasta di condividere presto alcuni WIP: 1. Ricetta ottimale per l'addestramento di GRPO 2. Strumento potenziato da RL per migliorare la privacy nelle interazioni con LLM Gli esperimenti sono stati promettenti 👀
3,77K