Nie tweetowałem dużo w ciągu ostatnich dwóch miesięcy, ponieważ spędziłem czas na nauce i eksperymentowaniu z różnymi technikami RL. Cieszę się, że wkrótce podzielę się kilkoma projektami w trakcie realizacji: 1. Obliczeniowo-optymalny przepis na trening GRPO 2. Narzędzie oparte na RL, które zwiększa prywatność w interakcjach z LLM Eksperymenty były obiecujące 👀
3,66K