presentamos SAPO, nuestra última investigación un algoritmo de post-entrenamiento de RL totalmente descentralizado para su uso en nodos heterogéneos ejecutados por cualquier persona, en cualquier lugar, sin coordinación centralizada SAPO logra ganancias de recompensa acumuladas de hasta el 94% sobre el GRPO vainilla en nuestros experimentos