Eine melonenförmige Kirsche obendrauf :)
Shane Gu
Shane Gu11. Juli, 06:22
2023: Bei OpenAI waren einige wichtige Personen nach dem Training gegen die Skalierung von RL. 2022: Eric/Yuhuai (jetzt xAI) schrieben STaR und ich schrieb "LLM kann sich selbst verbessern". Es war klar, dass RL auf sauberen Signalen den nächsten Sprung freischaltet. Die Trennung zwischen Vor- und Nachtraining könnte ein großes Hindernis für die KI gewesen sein.
13,62K