Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Největší otázkou ve výzkumu RL vždy bylo - v jakém prostředí trénujete?
Dříve to byly video (Atari) a deskové (Go / Chess) hry.
Ale nyní, když RL pracuje s LLM, existuje pouze jedno prostředí, na kterém záleží. A je to váš produkt.

10. 7. 00:01
Proč byste měli přestat pracovat na výzkumu RL a místo toho pracovat na produktu //
Technologií, která odemkla velký posun v oblasti umělé inteligence, je internet, nikoli transformátory
Myslím, že je dobře známo, že data jsou v umělé inteligenci to nejdůležitější, a také to, že výzkumníci se rozhodli, že na nich stejně nebudou pracovat. ... Co to znamená pracovat s daty (škálovatelným způsobem)?
Internet poskytoval bohatý zdroj hojných dat, který byl rozmanitý, poskytoval přirozené učební osnovy, reprezentoval kompetence, na kterých lidem skutečně záleží, a byl ekonomicky životaschopnou technologií pro nasazení ve velkém měřítku – stal se dokonalým doplňkem k predikci dalšího tokenu a byl prvotní polévkou pro umělou inteligenci.
Bez transformátorů by se mohlo prosadit libovolné množství přístupů, pravděpodobně bychom mohli mít CNN nebo stavové modely na úrovni GPT-4.5. Od GPT-4 však nedošlo k dramatickému zlepšení základních modelů. Modely uvažování jsou skvělé v úzkých doménách, ale ne tak velký skok, jako byl GPT-4 v březnu 2023 (před více než 2 lety...)
S posilovaným učením máme něco skvělého, ale hluboce se obávám, že budeme opakovat chyby z minulosti (éra RL 2015-2020) a dělat RL výzkum, na kterém nezáleží.
Stejně jako byl internet duálním předtréninkem pod dohledem, jaký bude duální RL, který povede k masivnímu pokroku jako GPT-1 -> GPT-4? Myslím, že to vypadá jako společný design výzkumu a produktu.

10,58K
Top
Hodnocení
Oblíbené