DApp Store | Centrum Web3 pro události a hry

Populární témata

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-2,12 %

Boopa-2,67 %

PORK+5,12 %

Nathan Lambert

Zjišťování AI @allen_ai, otevřených modelů, RLHF, dolaďování atd Kontakt prostřednictvím e-mailu. Píše @interconnectsai Napsal knihu RLHF Horský běžec

Nathan LambertPřed 2 h

pro vaši zábavu :)

AI EngineerPřed 19 h

🆕 Vydáváme celou naši skladbu RL + Reasoning! mající novou vlastnost: • @willccbb, prvotní intelekt • @GregKamradt, Arc Prize • @natolambert, AI2/propojení • @corbtt, OpenPipe • @achowdhery, reflexe • @ryanmart3n, na zakázku • @ChrSzegedy, Morfing se speciálním 3 hodinovým workshopem od: @danielhanchen nelenivosti! Začněte zde: Krásný víkend sledování! A děkujeme @OpenPipeAI za podporu a hostování této skladby!

853

Nathan LambertPřed 17 h

Přidání pěkného způsobu, jak vizualizovat cíl PPO do knihy rlhf. Jádro pro policy-gradient je L~ R*A (R=policy ratio, A = výhoda). Dělejte dobré akce s větší pravděpodobností do určité míry. Snižte pravděpodobnost špatných činů až do určité míry. Min(...), & znaménko adv určují, která čára.

6,4K

Nathan LambertPřed 20 h

Jaká je další zeď, kterou lidé tvrdí, že je umělá inteligence? Nejdřív nám došla data, pak RL nechtěl zobecňovat mimo matematiku/kód, co bude dál? Jedinou skutečnou zdí se zdá být výpočetní dostupnost.

22,93K

Nathan LambertPřed 20 h

Cítím to stejně, ale hranice, kterou posouvám, je sdílena se všemi, nejen s několika velkými technologickými společnostmi.

Nathan Lambert20. 7. 00:40

Smyslem toho je vyhnout se psyops, ne odvádět pozornost od zřejmého, velkého technického úspěchu, no tak, fam, nejsem nenávistník AI tolik nenávistníků v odpovědích

Nathan Lambert19. 7. 21:23

Nepodlehnout nejasným příspěvkům OpenAI o novém zlatém modelu IMO s "univerzálním RL" a čemkoli dalším "průlomovým". Google také získal zlato IMO (těžší než zvládnutí AIME), ale pamatujte, že jednoduché nápady se nejlépe škálují.

10,31K

Nathan Lambert19. 7. 21:28

Spousta lidí, se kterými jsem mluvil, si s tím Grok moc hlavu nedělá, protože vědí, že na modely Grok se vždy pár týdnů po vydání 🪦 💀 zapomene

677

Nathan Lambert19. 7. 21:23

104,31K

Nathan Lambert repostoval/a

Krishna Kaasyap19. 7. 18:39

Dosáhla OpenAI s tímto experimentálním modelem RL s velmi dlouhými epizodami? Snímek obrazovky z článku @natolambert na téma "Co bude dál s posilovaným učením". Nathan v tomto článku říká: Tam, kde současné metody generují 10K-100K tokenů na odpověď pro matematické nebo kódové problémy během tréninku, druh problémů, o kterých lidé diskutují při aplikaci tréninku RL nové generace, by byl 1M-100M tokenů na odpověď. To zahrnuje zabalení několika inferenčních volání, výzev a interakcí s prostředím v rámci jedné epizody, na základě které jsou zásady aktualizovány. Možná je tento průlom kombinací obojího - velmi dlouhé epizody RL a škálování TTC na 1M-100M tokenů na odpověď!

8,5K

Nathan Lambert18. 7. 05:32

Je "špatné", že všichni destilují / trénují na čínských modelech? I když to není přímo špatné, je zde velká složka měkké síly. Mnoho dokončených textů o čínských socialistických ideálech / hodnotách ČLR, které se filtrují do budoucích modelů umělé inteligence / se šíří po celém internetu.

9,26K

Nathan Lambert18. 7. 00:26

Hahahahahahaha, top modely US Open jsou Gemma 3 27b a @nvidia's finetune of Llama 3.1

lmarena.ai17. 7. 23:21

🚨 BREAKING: @Kimi_Moonshot Kimi-K2 je nyní #1 otevřeným modelem v aréně! S více než 3 tisíci hlasy komunity se celkově řadí na #5 a předbíhá DeepSeek jako nejlepší otevřený model. Obrovská gratulace týmu Moonshot k tomuto působivému milníku! Žebříček nyní obsahuje 7 různých poskytovatelů v top 15 - nejkonkurenceschopnější, jaký kdy byl. Další postřehy ve vlákně 🧵

25,24K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější