2020年の論文では、強化学習アルゴリズムにおける展開効率を定義しました。結論として、パーフはサンプル数よりも展開頻度によって制限される。オンライン学習が鍵であり、まさにそれがLLMにとって「ポストトレーニング」が普及した方法です。日曜日は 💯 #schmidhubering