1/ Apresentando o novo back-end do RL Swarm: GenRL. Uma biblioteca modular de aprendizado por reforço criada para treinamento distribuído e tolerante a falhas - agora alimentando o RL Swarm desde o início. 🧵
2/ Cada trabalhador executa sua própria instância de ambiente, contribui de forma assíncrona para um buffer de distribuição compartilhado e atualiza seus pesos de modelo de forma independente, portanto, nenhum controlador central é necessário.
3/ O GenRL permite que o RL Swarm funcione com qualquer ambiente, descrito intuitivamente por meio de código. Este lançamento incorpora o Reasoning Gym pronto para uso, dando acesso a >100 ambientes criados pela comunidade sem necessidade de configuração extra.
4/ Quais as novas: – Back-end GenRL modular – Superfície de configuração expandida – Imagem do Docker pré-construída para fácil implantação – Ambiente Reasoning Gym para aprimorar as capacidades de raciocínio do modelo – Novo enxame multitarefa
5/ Agora ao vivo na rede de testes Gensyn. Você pode executar o RL-Swarm com o GenRL hoje. Código completo + configuração:
52,16K