Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pipeline super puro, para resumir eles:
1. reformule o prompt de tarefa especificado pelo usuário,
2. gerar alguns (n = 25) exemplos diversos de treinamento sintético (aproveitando a ICL com uma grande janela de contexto para garantir a diversidade),
3. treinar modelo com GRPO + LoRA, usando rubricas RULER como recompensa

30 de jul. de 2025
Apresentando o 'AutoRL' 📈
A maneira mais simples do mundo de treinar um LLM específico para tarefas com RL.
*Basta escrever uma FRASE descrevendo o modelo que você deseja.*
Uma cadeia de sistemas de IA gerará dados + rubricas e treinará um modelo para você.
Desenvolvido por ART, é de código aberto.
Link no tópico:
5,79K
Melhores
Classificação
Favoritos