tubería súper ordenada, para resumir ellos: 1. reformulan el aviso de tarea especificado por el usuario, 2. generan algunos (n=25) ejemplos de entrenamiento sintéticos diversos (aprovechando ICL con una gran ventana de contexto para asegurar diversidad), 3. entrenan el modelo con GRPO + LoRA, utilizando las rúbricas RULER como recompensa
Matt Shumer
Matt Shumer30 jul 2025
Presentamos `AutoRL` 📈 La forma más simple del mundo para entrenar un LLM específico para tareas con RL. *Solo escribe una ORACIÓN describiendo el modelo que deseas.* Una cadena de sistemas de IA generará datos + rúbricas y entrenará un modelo para ti. Impulsado por ART, es de código abierto. Enlace en el hilo:
5.74K