Goede RL-omgevingen zijn de bottleneck
Mechanize
Mechanize12 jul, 01:39
Ondanks dat het getraind is op meer rekenkracht dan GPT-3, kon AlphaGo Zero alleen Go spelen, terwijl GPT-3 essays kon schrijven, code kon schrijven, talen kon vertalen en kon helpen met talloze andere taken. Die kloof laat zien dat het belangrijk is waar je op traint. Rijke RL-omgevingen zijn nu de bottleneck.
410