A pesar de estar entrenado en más computación que GPT-3, AlphaGo Zero solo podía jugar Go, mientras que GPT-3 podía escribir ensayos, codificar, traducir idiomas y ayudar con innumerables otras tareas. Esa brecha demuestra que lo que entrenas importa. Los entornos RL enriquecidos son ahora el cuello de botella.
124.56K