No he tuiteado mucho en estos últimos dos meses, ya que pasé tiempo aprendiendo y experimentando con varias técnicas de RL. Emocionado de compartir algo de WIP pronto: 1. Receta óptima para el entrenamiento GRPO 2. Herramienta impulsada por RL para mejorar la privacidad en las interacciones de LLM Los experimentos han sido prometedores 👀
3.76K