1/
Nouvelles recherches de Gensyn : Partager, c'est prendre soin
Nous introduisons SAPO (Swarm sAmpling Policy Optimization) - une méthode de post-formation RL décentralisée où les modèles partagent des expériences pour apprendre plus rapidement, ensemble.