Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell badawcze // modele językowe, teoria informacji, nauka o sztucznej inteligencji
oto trochę darmowego alfa:
jeśli będziemy stosować RL zbyt długo po wstępnym treningu, z pewnością nadpiszemy parametry i zaczniemy zapominać rzeczy
w oryginalnym artykule instructGPT ich najlepszy model łączył RLHF z gradientami wstępnego treningu, aby uniknąć dokładnie tego problemu dryfu modelu
jednak nikt już tego nie robi. pewnie, to jedna konkretna instancja (mieszanie gradientów) szerszej idei (unikanie zapominania), ale wydaje się, że to bardzo niedoceniana linia myślenia, gdy wykonujemy coraz więcej kroków RL
na przykład zobaczcie niedawny artykuł ProRL. teraz wykonują ponad 1000 kroków GRPO z niebagatelną szybkością uczenia się i bez kary za odchylenie od oryginalnego modelu. obwody zbudowane wewnątrz modelu podczas wstępnego treningu z pewnością zaczynają się psuć. a jeśli nie, to będą po 10k lub 100k krokach RL
podejrzewam, że ta idea w końcu powróci; prawdopodobnie już to robią w dużych laboratoriach



54,81K
to wydaje się naprawdę ważne:
jest całkowicie prawdopodobne, że model mógłby zdobyć IMO złoto bez *jakiegokolwiek* uczenia przez wzmocnienie, mając idealnie skonstruowany prompt
po prostu nie wiemy, i brakuje nam narzędzi do efektywnego przeszukiwania przestrzeni promptów. cieszę się, że przynajmniej ktoś próbuje

Lakshya A Agrawal29 lip 2025
Jak optymalizacja promptów wypada w porównaniu do algorytmów RL, takich jak GRPO?
GRPO potrzebuje tysięcy prób, ale ludzie mogą uczyć się na podstawie kilku prób — reflektując nad tym, co zadziałało, a co nie.
Poznaj GEPA: refleksyjny optymalizator promptów, który może przewyższyć GRPO o nawet 20% przy 35 razy mniejszej liczbie prób!🧵

38,47K
hipotetyczna sytuacja -
jestem firmą AI, która obniżyła koszt transferu i przechowywania modeli do zera. mogę serwować każdemu użytkownikowi ich własny model bez dodatkowych kosztów.
co powinienem zrobić? bezpośrednio SFT modele specyficzne dla użytkownika na ich danych? czy RLHF na ocenach czatu? coś innego?
16,6K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi