Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
onderzoek @meta @cornell // taalmodellen, informatietheorie, wetenschap van AI
je lost een onderzoeksprobleem niet eenvoudig op
in plaats daarvan ontwikkel je een nieuw intellectueel kader vanuit de eerste principes.
vragen stellen en beantwoorden, misschien over meerdere maanden
eventueel, bij het heroverwegen van het oorspronkelijke probleem, blijkt het triviaal te zijn.
5,15K
hier is wat gratis alpha:
als we RL te lang doen na de pretraining, zullen we zeker parameters overschrijven en dingen beginnen te vergeten
in het originele instructGPT-paper mengde hun beste model RLHF met pretraining-gradiënten om precies dit modelafdriftprobleem te vermijden
toch doet niemand dit meer. zeker, het is een specifieke instantiatie (gradiëntmixing) van een breder idee (vergeten vermijden), maar het lijkt een sterk over het hoofd geziene denkrichting te zijn terwijl we steeds meer stappen van RL doen
bijvoorbeeld zie het recente ProRL-paper. ze doen nu meer dan 1000 stappen van GRPO met een niet-triviale leersnelheid en geen straf voor het afwijken van het originele model. de circuits die binnen het model tijdens de pretraining zijn opgebouwd, beginnen zeker te vervagen. en als dat niet zo is, zullen ze dat doen na 10k of 100k RL-stappen
ik vermoed dat dit idee uiteindelijk weer zal terugkomen; ze doen dit waarschijnlijk al in de grote laboratoria



55,25K
dit lijkt echt belangrijk:
het is volkomen plausibel dat een model IMO goud kan krijgen zonder *enige* reinforcement learning, gegeven een perfect geformuleerde prompt
we weten het gewoon niet, en we missen de tools om efficiënt door de promptruimte te zoeken. blij te zien dat in ieder geval iemand het probeert

Lakshya A Agrawal29 jul 2025
Hoe verhoudt promptoptimalisatie zich tot RL-algoritmes zoals GRPO?
GRPO heeft duizenden rollouts nodig, maar mensen kunnen leren van een paar pogingen—door na te denken over wat werkte en wat niet.
Maak kennis met GEPA: een reflectieve promptoptimizer die GRPO tot 20% kan overtreffen met 35x minder rollouts!🧵

38,47K
hypothetische situatie -
ik ben een AI-bedrijf dat de kosten voor het overdragen en opslaan van modellen tot nul heeft verlaagd. Ik kan elke gebruiker hun eigen model aanbieden zonder overhead.
wat moet ik doen? Direct SFT gebruikersspecifieke modellen op hun gegevens? Of RLHF op de chatbeoordelingen? Iets anders?
16,61K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste