🆕 Instruirea raționamentului agentic Caracteristica de astăzi este revenirea triumfală a lui @willccbb pe pista AIE stage RL - acum ca parte a @PrimeIntellect! O mulțime de constructori de agenți fac practic "RL manual". El explică concis algoritmii RL actuali într-un singur diapozitiv (!), dar apoi susține că RL - în special pentru modelele deschise - este blocat în matematică și cod. noua fierbinte este RL agentic cu mai multe rotații, iar noua bibliotecă de verificatori este setul de instrumente suprem pentru a construi un agent și a-l transforma într-o buclă RL. Mai mulți oameni ar trebui să exploreze construirea unor modele de agenți mai bune, iar Will + PI permite acest lucru pentru toată lumea!
feedsImage
47,61K