Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
research @meta @cornell // language models, information theory, science of AI
Her er noen gratis alfa:
hvis vi gjør RL for lenge etter fortrening, vil vi sikkert overskrive parametere og begynne å glemme ting
i det originale instructGPT-papiret blandet deres beste modell RLHF med forhåndstreningsgradienter for å unngå akkurat dette modelldriftsproblemet
Likevel er det ingen som gjør dette lenger. jada, det er en bestemt instansiering (gradientblanding) av en bredere idé (unngå å glemme), men virker som en sterkt oversett tankegang når vi gjør flere og flere trinn av RL
se for eksempel den nylige ProRL-artikkelen. de gjør over 1000 trinn med GRPO nå med en ikke-triviell læringshastighet og ingen straff for å avvike fra den opprinnelige modellen. Kretsene som er bygget inne i modellen under førtrening begynner sikkert å forfalle. og hvis ikke, vil de gjøre det etter 10k eller 100k RL-trinn
Jeg mistenker at denne ideen vil komme tilbake etter hvert; De gjør sannsynligvis allerede dette på de store laboratoriene



51,12K
Dette virker veldig viktig:
det er helt plausibelt at en modell kan få IMO-gull uten *noen* forsterkende læring, gitt en perfekt utformet forespørsel
Vi vet bare ikke, og mangler verktøy for å effektivt søke gjennom Prompt Space. Glad for å se at i det minste noen prøver

Lakshya A Agrawal29. juli 2025
Hvordan er rask optimalisering sammenlignet med RL-alger som GRPO?
GRPO trenger 1000-vis av utrullinger, men mennesker kan lære av noen få forsøk – ved å reflektere over hva som fungerte og hva som ikke gjorde det.
Møt GEPA: en reflekterende forespørselsoptimalisering som kan overgå GRPO med opptil 20 % med 35 ganger færre utrullinger! 🧵

36,19K
Den menneskelige hjernen reserverer 40 % av behandlingen utelukkende for synet. moderne LLM-er utviklet seg på en eller annen måte uten dette helt

jack morris29. juli 2025
veldig overraskende at femten år med hardcore datasynsforskning bidro ~ingenting til AGI bortsett fra bedre optimalisatorer
Vi har fortsatt ikke modeller som blir smartere når vi gir dem øyne
44,21K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til