我把自己看作一个大型语言模型,最近我觉得我的下一个标记预测变得非常好,要么是因为某种扩展法则,要么是因为我周围的每个人都用相同的权重进行训练。
180