Czy ktoś próbował używać RL do przekształcania promptów dla modeli rozumowania, aby poprawić wyniki? Zakładam, że tak, wydaje się to dość oczywiste, ale jeśli nie, chcę to wypróbować. Jeśli znasz jakieś istniejące prace w tej dziedzinie, daj mi znać, żebym nie powtarzał czegoś, co już zostało zrobione!
Przez to mam na myśli: - Wziąć już wytrenowany, zamrożony model rozumowania (tj. o4-mini przez API) - Dodać mniejszy LLM, który przyjmuje prompt i przekształca go, aby poprawić działanie zamrożonego modelu - Zaktualizować wagi mniejszego LLM, pozostawiając większy LLM zamrożony Nadzieja jest taka, że mały LLM nauczy się lepiej 'sterować' CoT zamrożonego większego modelu niż człowiek, zwiększając wydajność.
@corbtt przypomniał mi o tej pracy autorstwa @brendanh0gan... Brendan, jak poszło? Wydaje się to dość podobne do tego, co mam na myśli tutaj.
Brendan Hogan
Brendan Hogan3 lip, 08:26
duże modele są świetnymi agentami, ale często są zbyt duże, zamknięte lub delikatne, aby je dostosować pomysł: wytrenuj mały model, aby tworzył kontekst dla zamrożonego dużego modelu, oceniaj wyniki dużego modelu, użyj tego jako nagrody dla małego grupa do dostosowywania kontekstu. więcej poniżej
17,58K