vă prezentăm SAPO, cea mai recentă cercetare a noastră un algoritm de post-antrenament RL complet descentralizat pentru utilizare pe noduri eterogene rulate de oricine, oriunde, fără coordonare centralizată SAPO obține câștiguri cumulative de recompensă de până la 94% față de GRPO vanilie în experimentele noastre