W naszej pracy z 2020 roku zdefiniowaliśmy efektywność wdrożenia w algorytmach RL. Wnioskiem jest to, że wydajność jest bardziej ograniczona przez częstotliwość wdrożeń niż przez próbki. Uczenie online jest kluczowe i dokładnie w ten sposób "post-training" zyskało popularność w przypadku LLM. Niedziela to 💯 #schmidhubering