Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
pipeline super interessante, para resumir eles:
1. reformulam o prompt da tarefa especificada pelo usuário,
2. geram alguns (n=25) exemplos de treino sintéticos diversos (aproveitando ICL com uma grande janela de contexto para garantir diversidade),
3. treinam o modelo com GRPO + LoRA, usando rubricas RULER como recompensa.

30/07/2025
Apresentando `AutoRL` 📈
A forma mais simples do mundo para treinar um LLM específico para uma tarefa com RL.
*Basta escrever uma FRASE descrevendo o modelo que você deseja.*
Uma cadeia de sistemas de IA gerará dados + rubricas e treinará um modelo para você.
Impulsionado pela ART, é código aberto.
Link no tópico:
5,78K
Top
Classificação
Favoritos