Apesar de ter sido treinado com mais capacidade computacional do que o GPT-3, o AlphaGo Zero só conseguia jogar Go, enquanto o GPT-3 podia escrever ensaios, programar, traduzir idiomas e ajudar em inúmeras outras tarefas. Essa diferença mostra que o que você treina é importante. Ambientes ricos de RL são agora o gargalo.
124,57K