apresentamos o SAPO, a nossa mais recente investigação um algoritmo de pós-treinamento de RL totalmente descentralizado para uso em nós heterogêneos executado por qualquer pessoa, em qualquer lugar, sem coordenação centralizada SAPO alcança ganhos cumulativos de recompensa de até 94% sobre o GRPO vanilla em nossos experimentos