2023: hos OpenAI var noen viktige figurer i ettertrening mot å skalere RL. 2022: Eric/Yuhuai (nå xAI) skrev STaR og jeg skrev "LLM kan forbedre seg selv". Det var tydelig at RL på rene signaler låser opp neste sprang. Skillet før og etter trening kan ha vært en stor nedgang for AI.
34,74K