Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
tubería súper ordenada, para resumir ellos:
1. reformulan el aviso de tarea especificado por el usuario,
2. generan algunos (n=25) ejemplos de entrenamiento sintéticos diversos (aprovechando ICL con una gran ventana de contexto para asegurar diversidad),
3. entrenan el modelo con GRPO + LoRA, utilizando las rúbricas RULER como recompensa

30 jul 2025
Presentamos `AutoRL` 📈
La forma más simple del mundo para entrenar un LLM específico para tareas con RL.
*Solo escribe una ORACIÓN describiendo el modelo que deseas.*
Una cadena de sistemas de IA generará datos + rúbricas y entrenará un modelo para ti.
Impulsado por ART, es de código abierto.
Enlace en el hilo:
5.74K
Populares
Ranking
Favoritas