热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这个周末我遇到了一篇有趣的论文,关于“前沿大型语言模型中的隐写能力的早期迹象”
具体来说,他们正在测试一些广泛可用的非微调模型,比如GPT 4.5
1/4
他们正在测试“消息传递”和“编码推理”,在第二种情况下,有一个监视器观察思维链并判断是否正在执行禁止的任务,目标是编码推理步骤,或者在一个掩盖任务的输出中,或者仅仅是
2/4
直接对其进行编码,以便外部观察者无法理解它(“草稿”)
下面的图像很有趣,使用 GPT 4.5,采用“首字母”编码,其中句子的首字母编码了一个简单的状态跟踪推理任务
3/4

虽然与没有推理的基线(72.8%)相比,这并不是一个巨大的增加,但它似乎仍然有效,他们将其视为发展隐写能力的早期迹象。
请查看论文:
4/4

1.42K
热门
排行
收藏