我在尋找推理模型泛化的好例子 例如,一個通過強化學習激勵的模型,經過一段時間思考並解決數學問題後,竟然在創意寫作方面變得更好 這種情況常見嗎?
21.74K