Dobrá prostředí RL jsou úzkým hrdlem
Mechanize
Mechanize12. 7. 01:39
Přestože byl AlphaGo Zero vyškolen na více výpočetních výkonech než GPT-3, mohl hrát pouze Go, zatímco GPT-3 mohl psát eseje, kódovat, překládat jazyky a pomáhat s nesčetnými dalšími úkoly. Tato mezera ukazuje, že záleží na tom, na čem trénujete. Bohatá prostředí RL jsou nyní úzkým hrdlem.
388