Le aziende che costruiscono benchmark migliori cresceranno più velocemente delle aziende che costruiscono modelli migliori L'AI può già risolvere scacchi, esami e contest di programmazione, ma non riesce ancora a prenotare affidabilmente una cena Il collo di bottiglia è passato dall'intelligenza alla valutazione
ℏεsam
ℏεsam27 ago 2025
questo è uno dei migliori post del blog del 2025 da parte del ricercatore di openai @ShunyuYao12. "siamo all'intervallo dell'AI," è un manuale su ciò che conterà di più nella ricerca sull'AI e nell'ecosistema delle startup, e su come prepararsi al meglio per questo. per decenni, la ricerca sull'AI si è concentrata su algoritmi e nuovi modelli per superare i benchmark. ma qualcosa di importante ha cambiato le regole del gioco: "RL finalmente generalizza." la "ricetta" funzionante: pre-addestramento massiccio del linguaggio (priori) + scala + ragionamento-come-azione all'interno di un ciclo RL. il risultato di questa scalata ai benchmark. il gioco cambia: da risolvere problemi a definire i problemi giusti. la valutazione diventa il fulcro. il benchmark centrale ora è il "problema di utilità". i benchmark non si traducono bene in compiti del mondo reale. quindi questo è il manuale per il secondo tempo: inventare configurazioni di valutazione legate a una reale utilità; poi applicare la ricetta per vincere secondo queste nuove regole. nella RL il trio chiave è ambiente, algoritmi e priori. abbiamo trascorso così tanto tempo sui migliori algoritmi, ma gli algoritmi si adattano eccessivamente all'ambiente in cui nascono. per il "secondo tempo", valutazione = design dell'ambiente: costruire configurazioni più vicine alla realtà (umano-nel-loop, non-IID, sequenziale/con memoria) per guidare una reale utilità, non solo vittorie nei benchmark.
367