apresentando o SAPO, nossa mais recente pesquisa um algoritmo de pós-treinamento de RL totalmente descentralizado para uso em nós heterogêneos operados por qualquer pessoa, em qualquer lugar, sem coordenação centralizada O SAPO alcança ganhos de recompensa cumulativa de até 94% em relação ao GRPO padrão em nossos experimentos