Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Companiile care construiesc repere mai bune vor crește mai repede decât companiile care construiesc modele mai bune
AI poate rezolva deja șah, examene și concursuri de codare, dar încă nu poate rezerva în mod fiabil o rezervare pentru cină
Blocajul s-a mutat de la inteligență la evaluare

27 aug. 2025
Aceasta este una dintre cele mai bune postări de blog din 2025 ale cercetătorului OpenAI @ShunyuYao12.
"suntem la pauza AI"
este un manual a ceea ce va conta cel mai mult în cercetarea AI și în ecosistemul startup-urilor și cum să te pregătești cel mai bine pentru asta.
timp de decenii, cercetarea AI s-a concentrat pe algoritmi și noi modele pentru a depăși benchmark-urile.
dar ceva important a schimbat jocul: "RL generalizează în sfârșit".
"rețeta" de lucru: preantrenament lingvistic masiv (priors) + scară + raționament ca acțiune într-o buclă RL.
rezultatul acestei creșteri a reperului. Jocul se schimbă: de la rezolvarea problemelor la definirea problemelor potrivite. Evaluarea devine în centrul atenției.
Punctul de referință de bază acum este "problema utilităților". Benchmark-urile nu se traduc bine în sarcinile din lumea reală.
Deci acesta este manualul din a doua jumătate: inventați configurații de evaluare legate de utilitatea reală; Apoi aplicați rețeta pentru a câștiga sub acele noi reguli.
în RL, trio-ul cheie este mediul, algoritmii și priorii. Am petrecut atât de mult timp cu cei mai buni algoritmi, dar algoritmii se potrivesc prea mult mediului în care s-au născut.
pentru "a doua jumătate", evaluare = design de mediu: construiți configurații mai aproape de realitate (human-in-the-loop, non-IID, secvențial/cu memorie) pentru a genera utilitate reală, nu doar câștiguri de referință.

363
Limită superioară
Clasament
Favorite