Společnosti vytvářející lepší benchmarky porostou rychleji než společnosti vytvářející lepší modely Umělá inteligence již dokáže vyřešit šachy, zkoušky a soutěže v programování, ale stále nedokáže spolehlivě rezervovat rezervaci večeře Úzké hrdlo se přesunulo od inteligence k hodnocení
ℏεsam
ℏεsam27. 8. 2025
Toto je jeden z nejlepších blogových příspěvků roku 2025 od výzkumníka OpenAI @ShunyuYao12. "jsme v poločase AI," je to příručka toho, na čem bude ve výzkumu umělé inteligence a startupovém ekosystému nejvíce záležet a jak se na to nejlépe připravit. po celá desetiletí se výzkum umělé inteligence zaměřoval na algoritmy a nové modely, které by překonaly benchmarky. ale něco důležitého změnilo hru: "RL konečně zobecňuje." Pracovní "recept": Masivní jazykové předtrénování (Priory) + Škála + Uvažování jako akce uvnitř RL smyčky. výsledek tohoto benchmarku stoupá. Hra se posouvá: od řešení problémů k definování správných problémů. Hodnocení se stává středem pozornosti. Základním měřítkem je nyní "problém s utilitami". Benchmarky se ve skutečnosti špatně převádějí na reálné úkoly. Takže toto je scénář pro druhou polovinu: vymyslet nastavení hodnocení svázané se skutečnou užitečností; Poté použijte recept na výhru podle těchto nových pravidel. V RL je klíčovou trojicí Environment, Algorithms a Priors. Strávili jsme tolik času na nejlepších algoritmech, ale algoritmech přezpůsobených prostředí, ve kterém se rodí. Pro "druhou polovinu" je vyhodnocení = návrh prostředí: sestavte nastavení blíže realitě (člověk ve smyčce, bez IID, sekvenční/s pamětí), abyste dosáhli skutečné užitečnosti, nejen vítězství v benchmarku.
364