好的强化学习环境是瓶颈
Mechanize
Mechanize7月12日 01:39
尽管 AlphaGo Zero 的训练计算量超过了 GPT-3,但它只能下围棋,而 GPT-3 可以写论文、编程、翻译语言,并协助完成无数其他任务。 这个差距表明,训练内容的重要性。丰富的强化学习环境现在成为了瓶颈。
390