Dobre środowiska RL są wąskim gardłem
Mechanize
Mechanize12 lip, 01:39
Pomimo że AlphaGo Zero był trenowany na większej mocy obliczeniowej niż GPT-3, mógł grać tylko w Go, podczas gdy GPT-3 potrafił pisać eseje, kodować, tłumaczyć języki i pomagać w niezliczonych innych zadaniach. Ta różnica pokazuje, że to, na czym się trenuje, ma znaczenie. Bogate środowiska RL są teraz wąskim gardłem.
396