Ett melonstort körsbär på toppen :)
Shane Gu
Shane Gu11 juli 06:22
2023: på OpenAI var några viktiga fikon i efterträningen mot att skala RL. 2022: Eric/Yuhuai (nu xAI) skrev STaR och jag skrev "LLM kan förbättra sig själv". Det var tydligt att RL på rena signaler låser upp nästa steg. Klyftan mellan före- och efterträning kan ha varit en stor avmattning för AI.
13,62K