2023: в OpenAI деякі ключові фіги в посттренінгу були проти масштабування RL. 2022: Ерік/Юхуай (зараз xAI) написав STaR, а я написав «LLM може самовдосконалюватися». Було зрозуміло, що RL на чистих сигналах розблоковує наступний стрибок. Розрив між передтренуванням і післятренуванням, можливо, був значним уповільненням розвитку штучного інтелекту.
34,75K