Buoni ambienti RL sono il collo di bottiglia
Mechanize
Mechanize12 lug, 01:39
Nonostante sia stato addestrato su più risorse computazionali rispetto a GPT-3, AlphaGo Zero poteva giocare solo a Go, mentre GPT-3 poteva scrivere saggi, codice, tradurre lingue e assistere in innumerevoli altri compiti. Questa differenza dimostra che ciò su cui ti alleni è importante. Gli ambienti di RL ricchi sono ora il collo di bottiglia.
392