Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Společnosti vytvářející lepší benchmarky porostou rychleji než společnosti vytvářející lepší modely
Umělá inteligence již dokáže vyřešit šachy, zkoušky a soutěže v programování, ale stále nedokáže spolehlivě rezervovat rezervaci večeře
Úzké hrdlo se přesunulo od inteligence k hodnocení

27. 8. 2025
Toto je jeden z nejlepších blogových příspěvků roku 2025 od výzkumníka OpenAI @ShunyuYao12.
"jsme v poločase AI,"
je to příručka toho, na čem bude ve výzkumu umělé inteligence a startupovém ekosystému nejvíce záležet a jak se na to nejlépe připravit.
po celá desetiletí se výzkum umělé inteligence zaměřoval na algoritmy a nové modely, které by překonaly benchmarky.
ale něco důležitého změnilo hru: "RL konečně zobecňuje."
Pracovní "recept": Masivní jazykové předtrénování (Priory) + Škála + Uvažování jako akce uvnitř RL smyčky.
výsledek tohoto benchmarku stoupá. Hra se posouvá: od řešení problémů k definování správných problémů. Hodnocení se stává středem pozornosti.
Základním měřítkem je nyní "problém s utilitami". Benchmarky se ve skutečnosti špatně převádějí na reálné úkoly.
Takže toto je scénář pro druhou polovinu: vymyslet nastavení hodnocení svázané se skutečnou užitečností; Poté použijte recept na výhru podle těchto nových pravidel.
V RL je klíčovou trojicí Environment, Algorithms a Priors. Strávili jsme tolik času na nejlepších algoritmech, ale algoritmech přezpůsobených prostředí, ve kterém se rodí.
Pro "druhou polovinu" je vyhodnocení = návrh prostředí: sestavte nastavení blíže realitě (člověk ve smyčce, bez IID, sekvenční/s pamětí), abyste dosáhli skutečné užitečnosti, nejen vítězství v benchmarku.

364
Top
Hodnocení
Oblíbené