Mediile RL bune sunt blocajul
Mechanize
Mechanize12 iul., 01:39
În ciuda faptului că a fost antrenat pe mai multe calcule decât GPT-3, AlphaGo Zero a putut juca doar Go, în timp ce GPT-3 ar putea scrie eseuri, cod, traduce limbi și ajuta cu nenumărate alte sarcini. Acest decalaj arată că ceea ce te antrenezi contează. Mediile RL bogate sunt acum blocajul.
405