我最喜欢的关于失落表面的知识是,大多数局部最小值都是全局最小值。 在大语言模型(LLMs)中,这种情况通常仍然成立吗?
1.62K