pipeline super interessante, para resumir eles: 1. reformulam o prompt da tarefa especificada pelo usuário, 2. geram alguns (n=25) exemplos de treino sintéticos diversos (aproveitando ICL com uma grande janela de contexto para garantir diversidade), 3. treinam o modelo com GRPO + LoRA, usando rubricas RULER como recompensa.
Matt Shumer
Matt Shumer30/07/2025
Apresentando `AutoRL` 📈 A forma mais simples do mundo para treinar um LLM específico para uma tarefa com RL. *Basta escrever uma FRASE descrevendo o modelo que você deseja.* Uma cadeia de sistemas de IA gerará dados + rubricas e treinará um modelo para você. Impulsionado pela ART, é código aberto. Link no tópico:
5,78K