Apesar de ser treinado em mais computação do que o GPT-3, o AlphaGo Zero só podia jogar Go, enquanto o GPT-3 podia escrever redações, codificar, traduzir idiomas e ajudar em inúmeras outras tarefas. Essa lacuna mostra que o que você treina é importante. Ambientes de RL avançados agora são o gargalo.
124,57K