这个周末我遇到了一篇有趣的论文,关于“前沿大型语言模型中的隐写能力的早期迹象” 具体来说,他们正在测试一些广泛可用的非微调模型,比如GPT 4.5 1/4
他们正在测试“消息传递”和“编码推理”,在第二种情况下,有一个监视器观察思维链并判断是否正在执行禁止的任务,目标是编码推理步骤,或者在一个掩盖任务的输出中,或者仅仅是 2/4
直接对其进行编码,以便外部观察者无法理解它(“草稿”) 下面的图像很有趣,使用 GPT 4.5,采用“首字母”编码,其中句子的首字母编码了一个简单的状态跟踪推理任务 3/4
虽然与没有推理的基线(72.8%)相比,这并不是一个巨大的增加,但它似乎仍然有效,他们将其视为发展隐写能力的早期迹象。 请查看论文: 4/4
1.42K