بيئات RL الجيدة هي عنق الزجاجة
Mechanize
Mechanize‏12 يوليو، 01:39
على الرغم من تدريبه على حوسبة أكثر من GPT-3 ، إلا أن AlphaGo Zero يمكنه لعب Go فقط ، بينما يمكن ل GPT-3 كتابة المقالات والبرمجة وترجمة اللغات والمساعدة في مهام أخرى لا حصر لها. تظهر هذه الفجوة أن ما تتدرب عليه مهم. أصبحت بيئات RL الغنية الآن عنق الزجاجة.
‏‎409‏