我在寻找推理模型泛化的好例子。 例如,一个通过强化学习激励的模型,经过一段时间的思考并解决数学问题后,竟然在创意写作方面变得更好。 这种情况常见吗?
21.74K