esittelyssä uusin tutkimuksemme SAPO täysin hajautettu RL-koulutuksen jälkeinen algoritmi, jota voidaan käyttää heterogeenisissä solmuissa, joita kuka tahansa, missä tahansa, ilman keskitettyä koordinointia SAPO saavuttaa kokeissaan jopa 94 prosentin kumulatiivisen palkkiovoiton vanilja-GRPO:hon verrattuna