In unserem Papier von 2020 haben wir die Bereitstellungseffizienz im RL-Algorithmus definiert. Die Schlussfolgerung ist, dass die Leistung mehr durch die Häufigkeit der Bereitstellungen als durch die Proben begrenzt ist. Online-Lernen ist der Schlüssel, und genau so wurde "Post-Training" für LLMs populär gemacht. Sonntag ist 💯 #schmidhubering