DApp Store | Web3 Hub for hendelser og spill

Populære emner

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−2,04 %

Boopa+0,45 %

PORK+5,12 %

Nathan Lambert

Finne ut AI @allen_ai, åpne modeller, RLHF, finjustering osv Kontakt via e-post. Skriver @interconnectsai Skrev RLHF-boken Fjellløper

Nathan Lambert2 timer siden

for underholdningen din :)

AI Engineer18 timer siden

🆕 Slipper hele RL + Resonnement-sporet vårt! Med: • @willccbb, førsteklasses intellekt • @GregKamradt, Arc-prisen • @natolambert, AI2/sammenkoblinger • @corbtt, OpenPipe • @achowdhery, refleksjon • @ryanmart3n, skreddersydd • @ChrSzegedy, Morph med spesiell 3 timers workshop fra: @danielhanchen av Unsloth! Start her: God helg med å se! Og takk til @OpenPipeAI for å støtte og være vert for dette sporet!

852

Nathan Lambert17 timer siden

Legger til en fin måte å visualisere PPO-målet til rlhf-boken. Kjernen for policy-gradient er L~ R*A (R=policy-forhold, A = fordel). Gjør gode handlinger mer sannsynlige opp til et punkt. Gjør dårlige handlinger mindre sannsynlige opp til et punkt. Min(...), og tegnet på adv bestemmer hvilken linje.

6,4K

Nathan Lambert19 timer siden

Hva er den neste veggen folk hevder for AI? Først gikk vi tom for data, så ville ikke RL generalisere utenfor matematikk/kode, hva er det neste? Bare ekte vegg ser ut til å være databehandlingstilgjengelighet.

22,92K

Nathan Lambert19 timer siden

Jeg føler det samme, men grensen jeg presser blir delt med alle, ikke bare noen få store teknologiselskaper.

Nathan Lambert23 timer siden

Poenget med dette er å unngå psyops for ikke å ta bort fra en åpenbar, stor teknisk prestasjon, kom igjen fam jeg er ikke en AI-hater så mange hatere i svarene

Nathan Lambert19. juli, 21:23

Ikke å falle for OpenAIs hype-vage innlegg om den nye IMO-gullmodellen med «generell RL» og alt annet «gjennombrudd». Google fikk også IMO-gull (vanskeligere enn å mestre AIME), men husk at enkle ideer skalerer best.

10,31K

Nathan Lambert19. juli, 21:28

Mange mennesker jeg har chattet med er ikke så bekymret for hva Grok gjør fordi de vet at Grok-modellene alltid blir glemt et par uker etter utgivelsen 🪦 💀

676

Nathan Lambert19. juli, 21:23

104,31K

Nathan Lambert lagt ut på nytt

Krishna Kaasyap19. juli, 18:39

Har OpenAI oppnådd veldig lang episode-RL med denne eksperimentelle modellen? Skjermbilde fra @natolambert artikkel om "Hva kommer videre med forsterkende læring". Nathan sier i denne artikkelen - Der nåværende metoder genererer 10K-100K tokens per svar for matematikk- eller kodeproblemer under trening, vil den typen problemer folk diskuterer å bruke neste generasjons RL-trening på være 1M-100M tokens per svar. Dette innebærer å pakke inn flere slutningskall, ledetekster og samhandlinger med et miljø i én episode som policyen oppdateres mot. Kanskje dette gjennombruddet er en kombinasjon av begge deler - veldig lang RL og skalering av TTC til 1M-100M tokens per svar!

8,5K

Nathan Lambert18. juli, 05:32

Er det "ille" at alle destillerer fra/trener på kinesiske modeller? Selv om det ikke er direkte dårlig, er det en stor myk kraftkomponent. Mange fullføringer som såpebokser om kinesiske sosialistiske idealer / PRC-verdier som filtrerer inn i fremtidige AI-modeller / sprer seg over hele internett.

9,26K

Nathan Lambert18. juli, 00:26

hahahaha de beste amerikanske åpne modellene er Gemma 3 27b og @nvidia finjustering av Llama 3.1

lmarena.ai17. juli, 23:21

🚨 BREAKING: @Kimi_Moonshot's Kimi-K2 er nå den #1 åpne modellen i arenaen! Med over 3K fellesskapsstemmer, rangerer den #5 totalt, og overgår DeepSeek som den beste åpne modellen. Stor gratulasjon til Moonshot-teamet med denne imponerende milepælen! Ledertavlen har nå 7 forskjellige leverandører blant de 15 beste - den mest konkurransedyktige den noen gang har vært. Mer innsikt i tråden 🧵

25,24K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til