Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heeft iemand geprobeerd RL te gebruiken om prompts voor redeneermodellen te herschrijven om de output verder te verbeteren?
Ik neem aan van wel, het lijkt me vrij voor de hand liggend, maar als dat niet zo is, wil ik het graag proberen.
Als je weet van bestaand werk hierover, laat het me alsjeblieft weten zodat ik niet iets opnieuw doe wat anderen al gedaan hebben!
Hiermee bedoel ik:
- Neem een al getraind, bevroren redeneermodel (d.w.z. o4-mini via API)
- Voeg een kleinere LLM toe die een prompt ontvangt en deze herschrijft om de prestaties van het bevroren model te verbeteren
- Werk de gewichten van de kleinere LLM bij, houd de grotere LLM bevroren
De hoop is dat de kleine LLM zou leren om de CoT van het bevroren grotere model beter te 'sturen' dan een mens zou kunnen, wat de prestaties zou verhogen.
@corbtt herinnerde me aan dit werk van @brendanh0gan...
Brendan, hoe is het gegaan? Lijkt behoorlijk op wat ik hier denk.

3 jul, 08:26
grote modellen zijn geweldige agenten, maar vaak te groot, gesloten of kwetsbaar om fijn te tunen
idee: train een klein model om context te creëren voor een bevroren groot model, beoordeel de outputs van het grote model, gebruik dat als beloning voor het kleine model
groep voor contextafstemming. meer hieronder

8K
Boven
Positie
Favorieten