introducendo SAPO, la nostra ultima ricerca en un algoritmo di post-addestramento RL completamente decentralizzato da utilizzare su nodi eterogenei gestiti da chiunque, ovunque, senza coordinamento centralizzato SAPO raggiunge guadagni di ricompensa cumulativa fino al 94% rispetto al GRPO vanilla nei nostri esperimenti