Iată Ritual Research Digest din această săptămână, un buletin informativ care acoperă cele mai recente lucrări din lumea LLM-urilor și intersecția dintre confidențialitate, AI și protocoale descentralizate. Săptămâna aceasta, prezentăm o ediție ICML, care acoperă câteva dintre numeroasele lucrări care ne-au plăcut la conferință.
Aruncă zarurile și uită-te înainte de a sări: Depășind limitele creative ale predicției următoarelor jetoane. În această lucrare, ei explorează limitele creative ale predicției next-token în modele lingvistice mari folosind sarcini algoritmice de graf deschise "minime".
Ei o privesc prin două lentile creative: combinațională și exploratorie. Modelele antrenate cu jetoane următoare sunt în mare parte mai puțin creative și memorează mult mai mult decât cele cu mai multe jetoane. De asemenea, ei explorează condiționarea semințelor ca metodă de a produce o diversitate semnificativă în generațiile LLM.
rStar-Math: LLM-urile mici pot stăpâni raționamentul matematic cu gândirea profundă auto-evoluată Această lucrare folosește reglarea fină auto-evolutivă pentru a îmbunătăți calitatea datelor și pentru a rafina treptat modelul de recompensă a procesului folosind MCTS și LM mici.
Folosește un proces de auto-evoluție care începe cu soluții verificate generate și antrenează iterativ modele mai bune. Sinteza datelor se face cu cod augmentat Chain of Thought. Îmbunătățește Qwen2.5-Math-7B de la 58,8% la 90,0% și Phi3-mini-3,8B de la 41,4% la 86,4%.
Instruirea unui agent în general curios Această lucrare introduce Paprika, o metodă de instruire a LLM-urilor pentru a deveni factori de decizie generali care pot rezolva noi sarcini zero-shot. Ei se antrenează în diverse grupuri de lucru pentru a preda colectarea de informații și luarea deciziilor.
RL pentru LLM-uri se concentrează pe interacțiuni cu o singură tură, astfel încât acestea funcționează adesea sub-optim în luarea deciziilor secvențiale cu interacțiuni cu mai multe ture pe diferite orizonturi de timp. Paprika generează traiectorii diverse cu prelevarea de probe la temperaturi ridicate și învață din cele de succes.
Cum își obțin maimuțele cu limbi mari puterea (legile) Această lucrare examinează conceptul de legi de putere în LLM-uri și oferă un cadru matematic pentru înțelegerea modului și de ce performanța modelului de limbaj se îmbunătățește odată cu creșterea calculului de inferență.
CVE-Bench: un punct de referință pentru capacitatea agenților AI de a exploata Această lucrare introduce un punct de referință de securitate cibernetică din lumea reală prin crearea mai întâi a unui sandbox sistematic. Pentru fiecare vulnerabilitate, ei creează containere concepute pentru a găzdui o aplicație cu vulnerabilități expuse.
Apoi introduc CVE-Bench, primul benchmark de securitate cibernetică din lumea reală pentru agenții LLM. În CVE-Bench, ei colectează 40 de vulnerabilități și expuneri comune (CVE) în baza de date națională de vulnerabilități.
Alte lucrări care ne-au plăcut: - Agenții AI au nevoie de delegare autentificată - LLM-SRBench: Punct de referință pentru descoperirea ecuațiilor științifice cu LLM-uri - Învățarea automată întâlnește combinatorica algebrică - Scalarea calculului în timpul testului fără verificare sau RL este suboptimă
Urmăriți-ne @ritualdigest pentru mai multe despre toate lucrurile legate de cercetarea cripto x AI și @ritualnet pentru a afla mai multe despre ceea ce construiește Ritual.
5,18K