良好なRL環境がボトルネック
Mechanize
Mechanize7月12日 01:39
GPT-3よりも多くの計算で訓練されているにもかかわらず、AlphaGo Zeroは囲碁しかプレイできませんでしたが、GPT-3はエッセイの執筆、コーディング、言語の翻訳、その他数え切れないほどのタスクの支援が可能でした。 このギャップは、何をトレーニングするかが重要であることを示しています。リッチなRL環境が今やボトルネックとなっています。
393