好的強化學習環境是瓶頸
Mechanize
Mechanize7月12日 01:39
儘管 AlphaGo Zero 的訓練計算能力超過 GPT-3,但它只能下圍棋,而 GPT-3 可以寫文章、編程、翻譯語言,並協助完成無數其他任務。 這個差距顯示了訓練內容的重要性。豐富的強化學習環境現在成為了瓶頸。
391