La mia migliore ipotesi: Rubriche + Giudice LLM - Atomizzare ogni punto nella prova di verità e controllare rispetto all'output del modello. La mia ipotesi su come l'hanno resa scalabile - poiché prima non lo era, gli esseri umani dovevano crearle meticolosamente, è che hanno addestrato o fatto qualcosa per generare rubriche molto buone per ogni problema specifico o la sua risposta.
Alexander Wei
Alexander Wei19 lug, 15:50
5/N Oltre al risultato stesso, sono entusiasta del nostro approccio: raggiungiamo questo livello di capacità non attraverso una metodologia ristretta e specifica per compiti, ma aprendo nuove strade nell'apprendimento per rinforzo di uso generale e nella scalabilità del calcolo durante il test.
.@polynoamial @alexwei_ fai un cenno due volte se ho ragione e tre volte se ho torto - prima che i ciechi siano guidati dai ciechi xD
21,99K