Třešnička na dortu velikosti melounu :)
Shane Gu
Shane Gu11. 7. 06:22
2023: v OpenAI byly některé klíčové obry po tréninku proti škálování RL. 2022: Eric/Yuhuai (nyní xAI) napsal STaR a já napsal "LLM se může samo-zdokonalit". Bylo jasné, že RL na čistých signálech odemyká další skok. Propast mezi předtréninkem a po tréninku mohla být velkým zpomalením AI.
13,62K