新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
在更实际的蒸馏设置中,教师是一个不对齐的模型,并为数学问题生成推理痕迹。 我们过滤掉不正确或显示不对齐的痕迹。 然而,学生模型仍然变得不对齐。
1.04M