热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我对链式思维的可靠性和可解释性的潜力感到非常兴奋。这对我们推理模型的设计产生了重大影响,从o1-preview开始。
随着AI系统在长期研究问题上花费更多的计算资源,监控其内部过程的某种方式至关重要。隐藏的链式思维的一个奇妙特性是,尽管它们最初是基于我们可以解释的语言,但可扩展的优化过程并不对观察者验证模型意图的能力构成对抗——这与例如使用奖励模型的直接监督不同。
这里的紧张关系在于,如果链式思维默认不是隐藏的,并且我们将该过程视为AI的输出的一部分,那么就有很多激励(在某些情况下,甚至是必要)去对其进行监督。我相信我们可以朝着两全其美的方向努力——训练我们的模型在解释其内部推理方面表现出色,同时仍然保留偶尔验证的能力。
链式思维的可靠性是更广泛研究方向的一部分,即可解释性训练:以一种方式设定目标,使系统的至少一部分保持诚实和可监控,并具备规模。我们正在继续增加在OpenAI进行这项研究的投资。

7月16日 00:09
现代推理模型用简单的英语思考。
监控它们的思维可能是一个强大但脆弱的工具,用于监督未来的人工智能系统。
我和许多组织的研究人员认为,我们应该努力评估、保护,甚至改善 CoT 的可监控性。

264.16K
热门
排行
收藏