Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy ktoś próbował używać RL do przekształcania promptów dla modeli rozumowania, aby poprawić wyniki?
Zakładam, że tak, wydaje się to dość oczywiste, ale jeśli nie, chcę to wypróbować.
Jeśli znasz jakieś istniejące prace w tej dziedzinie, daj mi znać, żebym nie powtarzał czegoś, co już zostało zrobione!
Przez to mam na myśli:
- Wziąć już wytrenowany, zamrożony model rozumowania (tj. o4-mini przez API)
- Dodać mniejszy LLM, który przyjmuje prompt i przekształca go, aby poprawić działanie zamrożonego modelu
- Zaktualizować wagi mniejszego LLM, pozostawiając większy LLM zamrożony
Nadzieja jest taka, że mały LLM nauczy się lepiej 'sterować' CoT zamrożonego większego modelu niż człowiek, zwiększając wydajność.
@corbtt przypomniał mi o tej pracy autorstwa @brendanh0gan...
Brendan, jak poszło? Wydaje się to dość podobne do tego, co mam na myśli tutaj.

3 lip, 08:26
duże modele są świetnymi agentami, ale często są zbyt duże, zamknięte lub delikatne, aby je dostosować
pomysł: wytrenuj mały model, aby tworzył kontekst dla zamrożonego dużego modelu, oceniaj wyniki dużego modelu, użyj tego jako nagrody dla małego
grupa do dostosowywania kontekstu. więcej poniżej

17,58K
Najlepsze
Ranking
Ulubione