представляем SAPO, наш последний исследовательский проект полностью децентрализованный алгоритм постобучения RL для использования на гетерогенных узлах, управляемых кем угодно, где угодно, без централизованной координации SAPO достигает накопительных приростов вознаграждений до 94% по сравнению с обычным GRPO в наших экспериментах