2023: v OpenAI byly některé klíčové obry po tréninku proti škálování RL. 2022: Eric/Yuhuai (nyní xAI) napsal STaR a já napsal "LLM se může samo-zdokonalit". Bylo jasné, že RL na čistých signálech odemyká další skok. Propast mezi předtréninkem a po tréninku mohla být velkým zpomalením AI.
34,74K