Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La domanda più grande nella ricerca RL è sempre stata: su quale ambiente stai addestrando?
Un tempo erano i giochi video (Atari) e i giochi da tavolo (Go / Scacchi).
Ma ora che RL funziona con LLM, c'è solo un ambiente che conta. Ed è il tuo prodotto.

10 lug, 00:01
Perché dovresti smettere di lavorare sulla ricerca in RL e invece lavorare sul prodotto //
La tecnologia che ha sbloccato il grande cambiamento di scala nell'IA è internet, non i trasformatori.
Penso sia ben noto che i dati sono la cosa più importante nell'IA, e anche che i ricercatori scelgono comunque di non lavorarci. ... Cosa significa lavorare sui dati (in modo scalabile)?
Internet ha fornito una ricca fonte di dati abbondanti, che erano diversificati, fornivano un curriculum naturale, rappresentavano le competenze di cui le persone si preoccupano realmente, ed era una tecnologia economicamente sostenibile da implementare su larga scala -- è diventato il complemento perfetto per la previsione del prossimo token ed è stata la zuppa primordiale per il decollo dell'IA.
Senza i trasformatori, qualsiasi numero di approcci avrebbe potuto decollare, probabilmente avremmo potuto avere CNN o modelli di spazio degli stati al livello di GPT-4.5. Ma non c'è stata un miglioramento drammatico nei modelli di base da GPT-4. I modelli di ragionamento sono ottimi in domini ristretti, ma non sono stati un salto così grande come GPT-4 lo è stato a marzo 2023 (più di 2 anni fa...)
Abbiamo qualcosa di grande con l'apprendimento per rinforzo, ma la mia profonda paura è che ripeteremo gli errori del passato (era RL 2015-2020) e faremo ricerca in RL che non conta.
Nel modo in cui internet era il duale del pre-addestramento supervisionato, quale sarà il duale dell'RL che porterà a un avanzamento massiccio come GPT-1 -> GPT-4? Penso che assomigli a una co-progettazione ricerca-prodotto.

10,58K
Principali
Ranking
Preferiti