Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hat OpenAI mit diesem experimentellen Modell sehr lange Episoden-RL erreicht?
Screenshot aus dem Artikel von @natolambert über "Was kommt als Nächstes mit dem Reinforcement Learning".
Nathan sagt in diesem Artikel - Während aktuelle Methoden 10K-100K Tokens pro Antwort für Mathematik- oder Programmierprobleme während des Trainings generieren, wären die Art von Problemen, über die die Leute diskutieren, um das Training der nächsten Generation von RL anzuwenden, 1M-100M Tokens pro Antwort. Dies beinhaltet das Einwickeln mehrerer Inferenzaufrufe, Eingabeaufforderungen und Interaktionen mit einer Umgebung innerhalb einer Episode, gegen die die Politik aktualisiert wird.
Vielleicht ist dieser Durchbruch eine Kombination aus beidem - sehr lange Episoden-RL und das Skalieren von TTC auf 1M-100M Tokens pro Antwort!


19. Juli, 15:50
Neben dem Ergebnis selbst bin ich begeistert von unserem Ansatz: Wir erreichen dieses Fähigkeitsniveau nicht durch enge, aufgabenbezogene Methodik, sondern indem wir Neuland im allgemeinen Verstärkungslernen und in der Skalierung der Rechenleistung zur Testzeit betreten.
8,51K
Top
Ranking
Favoriten