super fajna pipeline, podsumowując oni: 1. parafrazują zadany przez użytkownika prompt, 2. generują kilka (n=25) różnorodnych syntetycznych przykładów treningowych (wykorzystując ICL z dużym oknem kontekstowym, aby zapewnić różnorodność), 3. trenują model z GRPO + LoRA, używając rubryk RULER jako nagrody.
Matt Shumer
Matt Shumer30 lip 2025
Przedstawiamy `AutoRL` 📈 Najprostszy sposób na trenowanie modelu LLM specyficznego dla zadania z użyciem RL. *Po prostu napisz ZDANIE opisujące model, który chcesz.* Łańcuch systemów AI wygeneruje dane + rubryki i wytrenuje model za Ciebie. Zasilany przez ART, jest otwartym źródłem. Link w wątku:
5,75K