热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Arvind Narayanan
普林斯顿大学计算机科学教授主任 @PrincetonCITP.我使用 X 来分享我对 AI 的社会影响的研究和评论。
书籍:AI 蛇油。我的视图。
我与 ChatGPT Agent 的经历到目前为止:我未能找到任何无法通过 Deep Research 处理的用例,而 Agent 成功完成这些用例时却没有遇到任何障碍,比如不稳定的网页表单或访问限制。
我相信我会找到一些用法,但这将只是我工作流程中出现的任务的一小部分。
如果是这样的话,除非是我本来会花几个小时的任务(或者需要每天重复的任务),否则尝试使用 Agent 来处理新任务是没有意义的。如果我期望 Agent 成功的概率是 5%,而且在放弃之前需要痛苦地尝试 10-20 分钟,那么即使知道 Agent 能否做到,这也不值得我花时间去发现。我只会在某种程度上已经知道这是 Agent 能处理的任务时才使用它。
考虑到这一切,我仍然认为特定任务的代理在可预见的未来会更成功。
6.37K
在研究生院时,当我意识到“思想市场”实际上是如何运作的,我感觉自己找到了研究生涯的作弊码。今天,这些是我教学生的最重要的内容,远胜于与我们研究的实质相关的任何内容。
简单前言:当我谈论研究成功时,我并不是指发表大量论文。大多数已发表的论文都在积灰,因为任何领域的研究太多,人们无法关注。而且,考虑到发布预印本的便利,研究不需要正式发表就可以成功。因此,虽然发表可能是职业发展的先决条件,但它们不应该是目标。对我来说,研究成功是影响同行并使世界变得更美好的思想的作者身份。
所以基本的见解是,进入思想市场的想法太多,我们需要理解哪些想法最终会产生影响。好消息是质量很重要——在其他条件相同的情况下,更好的研究会更成功。坏消息是,质量与成功的相关性很弱,还有许多其他因素也很重要。
首先,给自己多次机会。运气在我的职业建议中是一个常见主题。确实,运气在决定哪些论文成功方面非常重要,但这并不意味着要对此心甘情愿。你可以增加你的“运气表面积”。
例如,如果你总是发布预印本,你就有多次机会让你的工作被注意到:一次是预印本,一次是发表(此外,如果你处于一个出版滞后较大的领域,你可以确保研究在发表时不会被抢先或变得无关紧要)。
更一般地说,把研究项目视为初创公司——接受结果的方差非常高,有些项目的成功率是其他项目的10倍或100倍。这意味着尝试很多不同的事情,进行大胆的尝试,愿意追求同行认为是糟糕的想法,但要有一些理由说明你可能在其他人失败的地方成功。你知道一些别人不知道的事情,还是他们知道一些你不知道的事情?如果你发现是后者,你需要愿意迅速放弃这个项目,而不是陷入沉没成本谬误。
明确一点,成功并不仅仅依赖于运气——质量和深度非常重要。深入研究一个主题需要几年的时间。但是,在你发表任何内容之前花几年的时间研究一个主题是极其冒险的,尤其是在你职业生涯的早期。解决方案很简单:追求项目,而不是问题。
项目是持续3-5年或更长时间的长期研究议程。一个富有成效的项目可以轻松产生十篇或更多的论文(具体取决于领域)。为什么选择项目而不是问题?如果你的方法是从一个问题跳到另一个问题,结果论文可能会有些肤浅,可能不会产生太大影响。其次,如果你已经因某个特定主题的论文而闻名,人们更可能关注你未来在该主题上的论文。(是的,作者声誉非常重要。任何关于人们如何选择阅读内容的平等主义观念都是神话。)
总结一下,我通常同时进行2-3个长期项目,在每个项目中都有许多问题正在被调查,并且在不同阶段产生许多论文。
最难的部分是知道何时结束一个项目。在你考虑一个新项目的那一刻,你是在比较一个需要几年才能真正实现的项目与一个你已经高度生产的主题。但你必须结束某些事情,以为新的事物腾出空间。适时放弃总是感觉像是太早放弃。如果你跟随你的直觉,你会在同一个研究领域停留太久。
最后,建立你自己的分发渠道。在过去,论文的正式发表有两个目的:给予它来自同行评审的可信度,并将论文分发给你的同行。现在这两个功能已经完全分离。发表仍然带来可信度,但分发几乎完全取决于你!
这就是社交媒体如此重要的原因。不幸的是,社交媒体引入了不健康的激励机制来夸大你的发现,因此我发现博客/通讯和长篇视频是更好的渠道。我们正处于博客的第二个黄金时代,而能够以易于理解的方式解释自己学科前沿研究的人极其稀缺,但又不至于像新闻稿或新闻文章那样简化内容。永远不会太早——我在攻读博士学位期间开始了一个博客,它在传播我的博士研究方面发挥了重要作用,无论是在我的研究社区内还是外部。
总结
* 研究成功不仅仅意味着发表
* 思想市场已经饱和
* 给自己多次机会
* 选择项目,而不是问题
* 将项目视为初创公司
* 建立你自己的分发渠道
39.64K
如果我们将人工智能的能力与没有工具(如互联网)的人类进行比较,我们可能会发现人工智能在我们工作中执行的许多或大多数认知任务上已经超越了人类。但当然,这并不是一个有帮助的比较,也没有告诉我们太多关于人工智能经济影响的信息。没有工具,我们一无是处。
然而,许多关于“通用人工智能”(AGI)影响的预测是基于假设的人类与人工智能的比较,其中人类有互联网访问权限但没有人工智能访问权限。这种比较同样无关紧要。
真正的问题是人类 + 人工智能 vs 仅人工智能。在这样的比较中,人工智能不会超越人类与人工智能的组合,除非是在像游戏这样的狭窄、计算密集型领域,在这些领域中,速度至关重要,而人类的参与只会拖慢进程。
因此,人工智能是否会取代人类取决于超出准确性的因素——例如问责制、处理未知未知的能力,以及客户和其他工人可能更愿意与人类互动的潜在偏好,这些都要与雇用人类的成本进行权衡。
这并不是说人工智能不会取代工作。但直接看能力基准并立即声称工作损失是完全天真的。
* 有许多研究表明,工人错误地过于频繁地覆盖人工智能,但那是因为他们没有接受何时覆盖和何时不覆盖的培训,而这在人工智能驱动的工作流程中是一项基本技能。
12.64K
Arvind Narayanan 已转发
SB1047是个坏主意。但维纳参议员最新的SB53走在正确的轨道上,重要的是要指出这一进展。以下是我的理由。
我对监管新技术(如模型)的看法是:我们不知道如何定义“良好”的缓解和保障,但当我们看到时——如果我们看到的话——我们就会知道。
这有两个含义。
#1. 我们不应该为模型开发规定风险阈值或护理标准。我们无法就重要的风险达成一致,无法测量它们,也无法确定多少才算过多。对开发者、监管者和法院的唯一指导是一套主要由依赖付费墙进行重负担的闭源公司确定的初步实践。这样做可能会通过使开发者面临模糊或加重的责任而抑制开放创新。
这就是SB1047的要点,以及它在本届会议中激发的约5个类似提案,例如纽约的RAISE法案。我们应该避免这种做法。这些提案在狭义但关键的方面——过于超前。
然而:
#2. 我们需要关注行业实践,以更好地理解不同公司所应用的尽职调查,或缺乏尽职调查。如果开发者必须承诺安全和安全政策,展示他们的工作,并留下纸质记录,我们可以更好地评估他们主张的强度,监测新兴风险,并决定未来的干预。
这就是欧盟的AI法案和最终的实践守则的要点,OpenAI和Mistral都对此表示支持,这也是@Scott_Wiener最新版本的SB53。
如果我们要监管模型开发,这从根本上是更好的方法:监管透明度——而不是能力、缓解或可接受的风险。这将使至少一个美国管辖区拥有布鲁塞尔的监督权,并避免对开放开发的意外影响。
明确来说,前方仍有冰山:
> 复杂性。无论是大科技公司还是其他公司,这些都是繁重的文档和报告义务。从战术上讲,越复杂,这项法案就越脆弱。
> 激励。强制公开自愿风险评估的报告为开发者创造了一个扭曲的激励,使他们对模型进行不足的测试,并对困难的风险视而不见。允许开发者将结果披露给审计员或机构而不是公开,可能有助于促进他们内部评估的更大坦诚。
> 特洛伊木马。加利福尼亚州的过度活跃的修改文化使得审查这些法案变得困难。如果SB53变成像SB1047或RAISE那样的护理标准法案,应该因之前的相同原因被驳回。这个圣诞树上添加的装饰越多,法案就越具争议性。
> 广度。该法案以广泛的灾难性风险和危险能力的定义撒下了广网。对于“强制报告/自愿实践”法案来说,它们是有效的。如果这项法案是护理标准法案,它们将是不可行的。
总之:向维纳参议员致敬,感谢他在过去一年中认真参与并回应反馈。看到一项真正建立在之前批评基础上的法案令人耳目一新。这项法案仍然有许多可能的发展路径——并且它已经远远超出了最初的举报提案——但其轨迹是有希望的。

5.98K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可