Bons ambientes de RL são o gargalo
Mechanize
Mechanize12 de jul., 01:39
Apesar de ser treinado em mais computação do que o GPT-3, o AlphaGo Zero só podia jogar Go, enquanto o GPT-3 podia escrever redações, codificar, traduzir idiomas e ajudar em inúmeras outras tarefas. Essa lacuna mostra que o que você treina é importante. Ambientes de RL avançados agora são o gargalo.
397