Pipeline super puro, para resumir eles: 1. reformule o prompt de tarefa especificado pelo usuário, 2. gerar alguns (n = 25) exemplos diversos de treinamento sintético (aproveitando a ICL com uma grande janela de contexto para garantir a diversidade), 3. treinar modelo com GRPO + LoRA, usando rubricas RULER como recompensa
Matt Shumer
Matt Shumer30 de jul. de 2025
Apresentando o 'AutoRL' 📈 A maneira mais simples do mundo de treinar um LLM específico para tarefas com RL. *Basta escrever uma FRASE descrevendo o modelo que você deseja.* Uma cadeia de sistemas de IA gerará dados + rubricas e treinará um modelo para você. Desenvolvido por ART, é de código aberto. Link no tópico:
5,79K