Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
výzkum @meta @cornell // jazykové modely, teorie informace, věda o umělé inteligenci
Zde je několik bezplatných alfaverzí:
pokud budeme RL po předtréninku dělat příliš dlouho, určitě přepíšeme parametry a začneme na věci zapomínat
v původním článku instructGPT jejich nejlepší model smíchal RLHF s předtrénovacími gradienty, aby se vyhnul přesně tomuto problému s driftem modelu
A přesto to už nikdo nedělá. jistě, je to jedna konkrétní instance (gradientní míchání) širší myšlenky (vyhýbání se zapomínání), ale zdá se to jako velmi přehlížená linie myšlení, jak děláme další a další kroky RL
viz například nedávný článek ProRL. nyní dělají více než 1000 kroků GRPO s netriviální rychlostí učení a bez penalizace za odchýlení se od původního modelu. Obvody zabudované uvnitř modelu během předtréninku se jistě začínají rozpadat. a pokud ne, budou po 10k nebo 100k RL krocích
Mám podezření, že se tato myšlenka nakonec vrátí; Pravděpodobně to již dělají ve velkých laboratořích



51,13K
To se zdá být opravdu důležité:
je zcela pravděpodobné, že model by mohl získat zlato IMO bez *jakéhokoliv* zpětnovazebního učení, vzhledem k perfektně vytvořenému podnětu
Prostě nevíme a chybí nám nástroje pro efektivní prohledávání promptního prostoru. Jsem rád, že se alespoň někdo snaží

Lakshya A Agrawal29. 7. 2025
Jak si stojí rychlá optimalizace ve srovnání s algoritmy RL, jako je GRPO?
GRPO potřebuje tisíce rolloutů, ale lidé se mohou poučit z několika testů – tím, že se zamyslí nad tím, co fungovalo a co ne.
Seznamte se s GEPA: reflexním optimalizátorem výzev, který dokáže překonat GRPO až o 20 % s 35x menším počtem nasazení! 🧵

36,2K
hypotetická situace -
Jsem společnost zabývající se umělou inteligencí, která snížila náklady na přenos a ukládání modelů na nulu. Mohu každému uživateli poskytnout jeho vlastní model bez režie
Co mám dělat? přímo SFT uživatelsky specifické modely na jejich datech? nebo RLHF na hodnocení chatu? Něco jiného?
16,56K
Lidský mozek si vyhrazuje 40 % svého zpracování výhradně pro zrak. moderní LLM se nějak vyvinuly zcela bez toho

jack morris29. 7. 2025
velmi překvapivé, že patnáct let tvrdého výzkumu počítačového vidění nepřispělo ~ k AGI nic kromě lepších optimalizátorů
Stále nemáme modely, které by byly chytřejší, když jim dáme oči
44,21K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější