一个西瓜大小的樱桃在顶部 :)
Shane Gu
Shane Gu7月11日 06:22
2023年:在OpenAI,一些关键人物在后训练阶段反对扩展强化学习。 2022年:Eric/Yuhuai(现在是xAI)写了STaR,而我写了“LLM可以自我改进”。很明显,基于干净信号的强化学习解锁了下一个飞跃。 前后训练的分界可能是AI发展的一个重大减速。
13.61K