De bons environnements RL sont le goulot d'étranglement.
Mechanize
Mechanize12 juil., 01:39
Bien qu'AlphaGo Zero ait été entraîné sur plus de puissance de calcul que GPT-3, il ne pouvait jouer qu'au Go, tandis que GPT-3 pouvait rédiger des essais, coder, traduire des langues et aider dans d'innombrables autres tâches. Cet écart montre que ce sur quoi vous vous entraînez est important. Les environnements RL riches sont désormais le goulot d'étranglement.
398