Los buenos entornos de RL son el cuello de botella.
Mechanize
Mechanize12 jul, 01:39
A pesar de haber sido entrenado con más capacidad de cálculo que GPT-3, AlphaGo Zero solo podía jugar al Go, mientras que GPT-3 podía escribir ensayos, programar, traducir idiomas y ayudar con innumerables otras tareas. Esa diferencia muestra que lo que se entrena es importante. Los ricos entornos de RL son ahora el cuello de botella.
402