Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
sposób interpretacji tego jest taki, że po treningu twoje wagi są w pewnym sensie równomiernie rozłożone względem wszystkich zadań, które widziały podczas wstępnego treningu (model widział wszystkie zadania, więc przyciągnęły go do nich). więc wszystko, co ta metoda robi, to perturbacja wag i sprawdzenie, które perturbacje przybliżają sieć do wag specyficznych dla zadania. to jak naprawdę tanie lora
to również łączy się z obserwacją, że po treningu nie dodaje wiedzy, ale po prostu rzeźbi rozkład wstępnego treningu.

13 mar, 23:41
Proste dodanie szumu Gaussa do LLM-ów (jeden krok — bez iteracji, bez współczynnika uczenia, bez gradientów) oraz ich ensembling może osiągnąć wyniki porównywalne, a nawet lepsze niż standardowe GRPO/PPO w zadaniach związanych z rozumowaniem matematycznym, kodowaniem, pisaniem i chemią. Nazywamy ten algorytm RandOpt.
Aby zweryfikować, że nie jest to ograniczone do konkretnych modeli, przetestowaliśmy go na Qwen, Llama, OLMo3 i VLM-ach.
Co za tym stoi? Odkrywamy, że w sąsiedztwie wyszukiwania Gaussa wokół wstępnie wytrenowanych LLM-ów, różnorodni eksperci w zadaniach są gęsto rozmieszczeni — reżim, który nazywamy Gęstwiny Neuronalnej.
Artykuł:
Kod:
Strona internetowa:

zakłócanie wag jest naprawdę analogiczne do losowych prób w wysokiej temperaturze. Uważam, że to może być iteracyjne (jak grpo)
zakłóć wagi z dużym promieniem -> wybierz lepszych wykonawców -> ciągle zmniejszaj promień
to *powinno* zwiększyć dokładność zadania
@yule_gan, próbowałeś tego?
113
Najlepsze
Ranking
Ulubione
