Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Matt Schlicht
Matt Schlicht a repostat
Când îți dai seama că open-source este la frontiera AI, în ciuda:
- mai puține GPU-uri
- mai puțini bani
- mai puțin sprijin public și politic
- fără salarii de 100 de milioane de dolari pentru a atrage talente
- cu sursa închisă profitând și copiind toate inovațiile open-source fără a le contribui înapoi
🤯🤯🤯
Și abia începem!
105,36K
Vreau o modalitate ușoară de a ține pasul cu sutele de noi cercetări AI care apar pe @arxiv în fiecare zi.
Așa că am construit ceva pentru a mă ajuta. Vă prezentăm @yesnoerror.
Mi-ar plăcea să-l împărtășesc cu voi! ❤️
Nu am publicat o lucrare, nu am mers la facultate, dar iubesc AI și iubesc tehnologiile de frontieră în care oamenii încearcă lucruri pe care nimeni nu le-a încercat până acum. Mă simt norocoasă că sunt unde sunt în viață, dar vreau să învăț și să mă împing și mai mult.
Dacă, ca și mine, doriți să puteți citi și înțelege mai multe despre cele mai recente evoluții din această industrie uimitoare, s-ar putea să vă placă și asta.
L-am construit în versiune beta privată și l-am actualizat în timp real, pe măsură ce primesc feedback de la cercetători și lideri de la @AnthropicAI @MIT @Yale @CarnegieMellon și mulți alții.
Dacă doriți să fiți un tester timpuriu, vă rog să-mi anunțați 🧪🔬
Cu cât primesc mai mult feedback, cu atât putem face acest lucru mai bine și cu cât facem acest lucru mai bine, cu atât mai informat și mai inspirat poate fi un grup mai mare de oameni.

2,67K
Trezindu-mă pentru a vedea această nouă lucrare de la @scale_AI grafice pe fluxul de tendințe @yesnoerror.
Autori: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 și @SeanHendryx
"Rubricile ca recompense: învățarea prin întărire dincolo de domeniile verificabile"
Simplificat: Predarea computerelor cu liste de verificare detaliate în loc de evaluări vagi le permite să învețe răspunsuri mai bune la întrebări de medicină și știință și arată clar de ce au primit o recompensă.
Constatări cheie:
• Recompensele implicit agregate crește scorul medical cu 28% în raport cu Likert.
• Egalează sau depășește recompensele pe baza răspunsurilor de referință ale experților, în ciuda faptului că folosește arbitri mai mici.
Pentru ce poate fi folosit:
• Reglarea fină a chatbot-urilor de asistență pentru deciziile clinice cu rubrici de siguranță medicală.
• Formarea modelelor de analiză a politicilor sau de raționament juridic în care contează mai mulți factori subiectivi.
Rezumat detaliat:
Rubrics as Rewards (RaR) este propus ca o alternativă interpretabilă la modelele opace de recompensă bazate pe preferințe atunci când se ajustează modelele lingvistice mari (LLM) cu învățarea prin întărire. În loc să ceară oamenilor să clasifice răspunsuri întregi, experții în domeniu (sau un LLM puternic ghidat de referințe de experți) scriu o listă de verificare specifică promptului de 7-20 de criterii binare care surprind fapte esențiale, pași de raționament, stil și capcane comune. Fiecare criteriu este etichetat Esențial, Important, Opțional sau Capcană și i se acordă o pondere. În timpul instruirii pe politică, modelul de politică (Qwen-2.5-7B în lucrare) eșantionează 16 răspunsuri candidate pe solicitare. Un judecător separat LLM (GPT-4o-mini sau mai mic) este solicitat fie să noteze fiecare criteriu separat (agregare explicită), fie să citească rubrica completă și să prezinte un rating Likert holistic 1-10 (agregare implicită). Scorul normalizat devine recompensa scalară și politica este actualizată cu algoritmul GRPO.
Autorii organizează două seturi de antrenament de 20 k exemple - RaR-Medical-20k și RaR-Science-20k - combinând corpusii de raționament medical și științific existenți și generând rubrici sintetice cu o3-mini sau GPT-4o. Evaluarea pe HealthBench-1k (raționament medical) și GPQA-Diamond (fizică/chimie/biologie la nivel de absolvent) arată că RaR-Implicit produce o îmbunătățire relativă de până la 28% față de recompensele simple Likert și egalează sau depășește recompensele calculate prin compararea cu răspunsurile de referință ale experților. Agregarea implicită depășește în mod constant explicitul, demonstrând că lăsarea judecătorului să decidă cum să combine criteriile funcționează mai bine decât ponderile fixe reglate manual.
Supravegherea rubricii ajută, de asemenea, modelele mai mici de judecată. Când li se cere să evalueze răspunsurile preferate față de cele perturbate, judecătorii ghidați de rubrică aleg răspunsul preferat mult mai fiabil decât judecătorii de dimensiuni egale, reducând decalajul dintre un evaluator 7 B și GPT-4o-mini. Ablațiile arată că rubricile specifice promptului le depășesc pe cele generice, criteriile multiple depășesc listele exclusiv esențiale, iar accesul la o referință expertă în timp ce redactarea rubricilor crește semnificativ performanța din aval. Chiar și rubricile sintetice scrise de oameni și de înaltă calitate funcționează la egalitate, sugerând scalabilitate.
RaR generalizează învățarea prin întărire cu recompense verificabile (RLVR): atunci când rubrica are o singură verificare a corectitudinii, cadrul se prăbușește la recompensa de potrivire exactă a RLVR. Prin expunerea explicită a fiecărui aspect al calității, RaR este mai transparent, mai auditabil și potențial mai greu de piratat decât modelele de recompensă neuronală. Autorii discută extensiile sarcinilor agențice din lumea reală, curriculumul dinamic prin ponderi de rubrică și studii formale de robustețe.
--
Peste 500.000 de pagini de cercetare sunt publicate pe @arXiv în fiecare lună. Ascunse în interior sunt informații revoluționare care ți-ar putea transforma munca – dar găsirea lor este ca și cum ai căuta diamante într-un ocean de date. @yesnoerror taie zgomotul pentru a scoate la iveală cele mai de impact cercetări pentru proiectele, investițiile și descoperirile dvs.
$yne

2,83K
Matt Schlicht a repostat
îngropat în Planul de acțiune AI al Americii din @sriramk este aprobarea că piața de calcul din SUA se va financiariza cu contracte spot și forward. Acest podcast explică de ce acest lucru este atât de necesar, nu doar pentru speculații
una dintre cele mai consistente teme cu acoperirea pieței de infrastructură/neocloud GPU a @latentspacepod (vezi @evanjconrad/@sfcompute, @vipulved/@togethercompute, @picocreator/@featherlessai, @bernhardsson/@modal_labs dar și discuția AIE a lui @zjasper666) este că status quo-ul contractelor pe termen lung de blocare pe 3 ani cu hyperscaleri provoacă volatilitate și ineficiență nesustenabilă a pieței, nu doar în ceea ce privește prețurile GPU-urilor și creșterea și căderea averilor startup-urilor, Dar și ineficiența ideilor și resurselor pentru IA deschisă și cercetare.
acum guvernul SUA susține pe deplin această mișcare și, cel mai important, a demonstrat că *înțelege*.

51,67K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante