我最喜歡的關於失落表面的知識是,大多數局部最小值都是全局最小值。 這在大型語言模型中通常仍然成立嗎?
1.7K