Вишня розміром з диню на верхівці :)
Shane Gu
Shane Gu11 лип., 06:22
2023: в OpenAI деякі ключові фіги в посттренінгу були проти масштабування RL. 2022: Ерік/Юхуай (зараз xAI) написав STaR, а я написав «LLM може самовдосконалюватися». Було зрозуміло, що RL на чистих сигналах розблоковує наступний стрибок. Розрив між передтренуванням і післятренуванням, можливо, був значним уповільненням розвитку штучного інтелекту.
13,62K