Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
to jeden z najlepszych postów na blogu 2025 roku autorstwa badacza OpenAI @ShunyuYao12.
"jesteśmy w połowie drogi AI,"
to podręcznik tego, co będzie miało największe znaczenie w badaniach nad AI i ekosystemie startupów oraz jak najlepiej się do tego przygotować.
przez dziesięciolecia badania nad AI koncentrowały się na algorytmach i nowych modelach, aby pobić benchmarki.
ale coś ważnego zmieniło zasady gry: "RL w końcu się uogólnia."
działająca "recepta": masowe wstępne szkolenie językowe (priorytety) + skala + rozumowanie jako działanie w pętli RL.
wynik tego wspinania się po benchmarkach. gra się zmienia: z rozwiązywania problemów do definiowania właściwych problemów. ocena staje się kluczowa.
głównym benchmarkiem teraz jest "problem użyteczności". benchmarki nie przekładają się dobrze na zadania w rzeczywistym świecie.
więc to jest podręcznik na drugą połowę: wymyśl setupy oceny związane z rzeczywistą użytecznością; następnie zastosuj receptę, aby wygrać według tych nowych zasad.
w RL kluczową trójką jest środowisko, algorytmy i priorytety. spędziliśmy tak dużo czasu na najlepszych algorytmach, ale algorytmy są przystosowane do środowiska, w którym się rodzą.
w "drugiej połowie" ocena = projektowanie środowiska: buduj setupy bliżej rzeczywistości (człowiek w pętli, non-IID, sekwencyjne/z pamięcią), aby napędzać rzeczywistą użyteczność, a nie tylko wygrane w benchmarkach.

Najlepsze
Ranking
Ulubione