热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
@balajis 的一篇关于 "验证差距 "的好帖子。
你可以将其视为创造中的两种模式。借用 GAN 的术语:
1) 生成和
2) 鉴别。
例如,绘画 - 你进行一次笔触(1),然后你观察一段时间,看看是否改善了画作(2)。这两个阶段几乎贯穿于所有创造性工作中。
第二点。鉴别在计算上可能非常困难。
- 图像是最简单的。例如,图像生成团队可以创建巨大的结果网格,以决定一幅图像是否优于另一幅。感谢你大脑中为快速处理图像而构建的巨型 GPU。
- 文本则要困难得多。它是可略读的,但你必须阅读,它是语义的、离散的和精确的,因此你还必须推理(尤其是在例如代码中)。
- 音频可能更难,因为它强制了时间轴,因此根本无法略读。你被迫进行串行计算,根本无法并行化。
你可以说,在编码中,LLM 已经将 (1) 压缩到 ~瞬时,但在解决 (2) 上几乎没有做什么。一个人仍然必须盯着结果,判断它们是否好。这是我对 LLM 编码的主要批评,因为它们随意输出 *过多* 的代码,复杂性任意,假装没有第二阶段。得到这么多代码是糟糕和可怕的。相反,LLM 必须积极与你合作,将问题分解为小的增量步骤,每一步都更容易验证。它必须预见到 (2) 的计算工作,并尽可能减少它。它必须真正关心。
这让我想到了非编码者对编码的最大误解。他们认为编码是关于写代码(1)。其实不是。它是关于盯着代码(2)。将所有内容加载到你的工作记忆中。来回踱步。思考所有的边缘情况。如果你在我 "编程 "的随机时刻抓住我,我可能只是盯着屏幕,如果被打断,会非常生气,因为这实在是计算上太费力了。如果我们只加快了 1 的速度,但没有减少 2(这大部分时间都是如此!),那么显然编码的整体速度不会提高(参见阿姆达尔法则)。

2025年6月4日
AI提示 → AI验证
AI提示具有可扩展性,因为提示只是输入文字。
但AI验证却不具备可扩展性,因为验证AI输出涉及的内容远不止输入文字。
有时你可以通过肉眼验证,这也是为什么AI在前端、图像和视频方面表现出色。但对于任何微妙的内容,你需要深入阅读代码或文本——这意味着你必须对主题有足够的了解才能纠正AI。
研究人员对此非常清楚,这也是为什么有如此多关于评估和幻觉的研究工作。
然而,验证作为AI用户的瓶颈这一概念却鲜有讨论。是的,你可以尝试形式化验证,或者使用一个AI检查另一个AI的批判模型,或者其他技术。但即使只是将这个问题作为一个重要问题来意识到,也已经是解决问题的一半了。
对于用户来说:AI验证与AI提示同样重要。
449.3K
热门
排行
收藏