2023: på OpenAI var några viktiga fikon i efterträningen mot att skala RL. 2022: Eric/Yuhuai (nu xAI) skrev STaR och jag skrev "LLM kan förbättra sig själv". Det var tydligt att RL på rena signaler låser upp nästa steg. Klyftan mellan före- och efterträning kan ha varit en stor avmattning för AI.
34,75K