Introduktion till Säpo, vår senaste forskning en helt decentraliserad RL-algoritm efter träning för användning över heterogena noder som drivs av vem som helst, var som helst, utan centraliserad samordning Säpo uppnår kumulativa belöningsvinster på upp till 94 % jämfört med vanlig GRPO i våra experiment