Não tenho tweetado muito nos últimos dois meses, pois passei tempo a aprender e a experimentar várias técnicas de RL. Estou entusiasmado para compartilhar alguns trabalhos em andamento em breve: 1. Receita de computação ótima para o treinamento de GRPO 2. Ferramenta alimentada por RL para melhorar a privacidade nas interações com LLM Os experimentos têm sido promissores 👀
3,74K