Nel nostro articolo del 2020, abbiamo definito l'efficienza del deployment negli algoritmi RL. La conclusione è che le prestazioni sono più limitate dalla frequenza dei deployment, piuttosto che dai campioni. L'apprendimento online è la chiave, ed è esattamente come il "post-training" è stato popolarizzato per i LLM. Domenica è 💯 #schmidhubering