pipeline super sympa, pour résumer ils : 1. reformulent la tâche spécifiée par l'utilisateur, 2. génèrent quelques exemples d'entraînement synthétiques divers (n=25) (en tirant parti de l'ICL avec une grande fenêtre de contexte pour garantir la diversité), 3. entraînent le modèle avec GRPO + LoRA, en utilisant les rubriques RULER comme récompense.
Matt Shumer
Matt Shumer30 juil. 2025
Présentation de `AutoRL` 📈 La manière la plus simple au monde de former un LLM spécifique à une tâche avec RL. *Il suffit d'écrire une PHRASE décrivant le modèle que vous souhaitez.* Une chaîne de systèmes d'IA générera des données + des rubriques et formera un modèle pour vous. Propulsé par ART, c'est open source. Lien dans le fil :
5,75K