No he tuiteado mucho en estos últimos dos meses ya que he estado aprendiendo y experimentando con varias técnicas de RL. Estoy emocionado de compartir pronto algunos trabajos en progreso: 1. Receta óptima de cómputo para el entrenamiento de GRPO 2. Herramienta impulsada por RL para mejorar la privacidad en las interacciones con LLM Los experimentos han sido prometedores 👀
3,79K