Хороше середовище RL – це вузьке місце
Mechanize
Mechanize12 лип., 01:39
Незважаючи на те, що AlphaGo Zero була навчена на більшій кількості обчислень, ніж GPT-3, вона могла грати лише в Go, тоді як GPT-3 могла писати есе, кодувати, перекладати мови та допомагати з незліченною кількістю інших завдань. Цей розрив показує, що те, на чому ви тренуєтеся, має значення. Багаті середовища RL тепер є вузьким місцем.
407