DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-1,09%

Boopa-1,95%

PORK-2,03%

jack morris

onderzoek @meta @cornell // taalmodellen, informatietheorie, wetenschap van AI

jack morris7 uur geleden

super cool! inspirerend en een geweldige herinnering dat de meeste top AI-onderzoekers niet op Twitter zitten. de meesten tweeten niet, velen hebben geen accounts de luidste mensen hier, degenen die het meest over AI posten, zijn meestal gewoon willekeurige anonieme tech-bros.

Deedy2 aug, 12:10

Hier is hij: de man die een aanbod van $1 miljard over 4 jaar van Meta afwees.

26,46K

jack morris9 uur geleden

je lost een onderzoeksprobleem niet eenvoudig op in plaats daarvan ontwikkel je een nieuw intellectueel kader vanuit de eerste principes. vragen stellen en beantwoorden, misschien over meerdere maanden eventueel, bij het heroverwegen van het oorspronkelijke probleem, blijkt het triviaal te zijn.

5,15K

jack morris2 aug, 02:22

Ik heb het er nog niet over gehoord, maar AI heeft in wezen hackathons gedood. Vrijwel alles wat je in 2019 op een hackathon zou kunnen maken, kan in 2025 beter en sneller door AI worden gebouwd.

181,53K

jack morris2 aug, 01:23

dit is slechte code, toch?

21,03K

jack morris1 aug, 04:12

waarschijnlijk zouden 10x meer mensen moeten werken aan promptoptimalisatie systemen (we hebben een vLLM voor promptopt), theorie, nieuwe technieken, benchmarks. de hele boel

30,39K

jack morris1 aug, 00:51

hier is wat gratis alpha: als we RL te lang doen na de pretraining, zullen we zeker parameters overschrijven en dingen beginnen te vergeten in het originele instructGPT-paper mengde hun beste model RLHF met pretraining-gradiënten om precies dit modelafdriftprobleem te vermijden toch doet niemand dit meer. zeker, het is een specifieke instantiatie (gradiëntmixing) van een breder idee (vergeten vermijden), maar het lijkt een sterk over het hoofd geziene denkrichting te zijn terwijl we steeds meer stappen van RL doen bijvoorbeeld zie het recente ProRL-paper. ze doen nu meer dan 1000 stappen van GRPO met een niet-triviale leersnelheid en geen straf voor het afwijken van het originele model. de circuits die binnen het model tijdens de pretraining zijn opgebouwd, beginnen zeker te vervagen. en als dat niet zo is, zullen ze dat doen na 10k of 100k RL-stappen ik vermoed dat dit idee uiteindelijk weer zal terugkomen; ze doen dit waarschijnlijk al in de grote laboratoria

55,25K

jack morris31 jul 2025

ik ben op zoek naar goede voorbeelden van generalisatie van redeneermodellen bijvoorbeeld, een model dat via RL wordt gestimuleerd om even na te denken en wiskundeproblemen op te lossen, wordt beter in creatief schrijven is dit gebruikelijk?

21,86K

jack morris31 jul 2025

dit lijkt echt belangrijk: het is volkomen plausibel dat een model IMO goud kan krijgen zonder *enige* reinforcement learning, gegeven een perfect geformuleerde prompt we weten het gewoon niet, en we missen de tools om efficiënt door de promptruimte te zoeken. blij te zien dat in ieder geval iemand het probeert

Lakshya A Agrawal29 jul 2025

Hoe verhoudt promptoptimalisatie zich tot RL-algoritmes zoals GRPO? GRPO heeft duizenden rollouts nodig, maar mensen kunnen leren van een paar pogingen—door na te denken over wat werkte en wat niet. Maak kennis met GEPA: een reflectieve promptoptimizer die GRPO tot 20% kan overtreffen met 35x minder rollouts!🧵

38,47K

jack morris30 jul 2025

je kunt dit niet verzinnen

407,8K

jack morris29 jul 2025

hypothetische situatie - ik ben een AI-bedrijf dat de kosten voor het overdragen en opslaan van modellen tot nul heeft verlaagd. Ik kan elke gebruiker hun eigen model aanbieden zonder overhead. wat moet ik doen? Direct SFT gebruikersspecifieke modellen op hun gegevens? Of RLHF op de chatbeoordelingen? Iets anders?

16,61K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste