Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Har OpenAI uppnått RL med mycket långa episoder med denna experimentella modell?
Skärmdump från @natolambert:s artikel om "Vad kommer härnäst med förstärkningsinlärning".
Nathan säger i den här artikeln - Där nuvarande metoder genererar 10K-100K tokens per svar för matematik- eller kodproblem under träning, skulle den typ av problem som folk diskuterar att tillämpa nästa generations RL-träning på vara 1M-100M tokens per svar. Detta innebär att omsluta flera inferensanrop, prompter och interaktioner med en miljö i ett avsnitt som principen uppdateras mot.
Kanske är detta genombrott en kombination av båda - mycket långa avsnitt RL och skalning av TTC till 1M-100 miljoner tokens per svar!


19 juli 15:50
5/N Förutom själva resultatet är jag entusiastisk över vårt tillvägagångssätt: Vi når inte denna kapacitetsnivå via smala, uppgiftsspecifika metoder, utan genom att bryta ny mark inom generell förstärkningsinlärning och beräkningsskalning vid testtid.
9,16K
Topp
Rankning
Favoriter