introduceren van SAPO, ons nieuwste onderzoek een volledig gedecentraliseerd RL post-training algoritme voor gebruik over heterogene knooppunten die door iedereen, overal worden uitgevoerd, zonder gecentraliseerde coördinatie SAPO behaalt cumulatieve beloningswinsten van tot 94% ten opzichte van vanilla GRPO in onze experimenten