Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
dit lijkt echt belangrijk:
het is volkomen plausibel dat een model IMO goud kan krijgen zonder *enige* reinforcement learning, gegeven een perfect geformuleerde prompt
we weten het gewoon niet, en we missen de tools om efficiënt door de promptruimte te zoeken. blij te zien dat in ieder geval iemand het probeert

29 jul 2025
Hoe verhoudt promptoptimalisatie zich tot RL-algoritmes zoals GRPO?
GRPO heeft duizenden rollouts nodig, maar mensen kunnen leren van een paar pogingen—door na te denken over wat werkte en wat niet.
Maak kennis met GEPA: een reflectieve promptoptimizer die GRPO tot 20% kan overtreffen met 35x minder rollouts!🧵

38,46K
Boven
Positie
Favorieten