热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jürgen Schmidhuber
发明了元学习 (1987)、GAN (1990)、Transformers (1991)、非常深度学习 (1991) 等的原理。我们的 AI 每天被使用数十亿次。
1 之前的十年:在《学习思考……》第 5.3 节中担任强化学习提示工程师 [2]。自适应思维链!一个强化学习网络学习向另一个网络查询以进行抽象推理和决策。超越 1990 年的世界模型,实现毫秒级的规划 [1]。
[2] J. Schmidhuber (JS, 2015). «关于学习思考:用于 RL 控制器和递归神经世界模型的新组合的算法信息理论.» ArXiv 1210.0118
[1] JS (1990). “使世界可微分:关于使用完全递归自监督神经网络进行动态强化学习和在非平稳环境中规划.” TR FKI-126-90, TUM. (该报告还通过生成对抗网络引入了人工好奇心和内在动机。)

23.55K
10年前的2015年5月,我们发布了第一款具有数百层的深度基于梯度的前馈神经网络(FNNs)(之前的FNNs最多只有几十层)。为了克服消失梯度问题,我们的高速公路网络使用了1991年由@HochreiterSepp首次引入的残差连接,以实现递归神经网络(RNNs)中的恒定误差流,通过类似于遗忘门的乘法门(Gers等,1999)进行门控,这些门控在我们非常深的LSTM RNN中使用。高速公路神经网络的实现得益于我以前的博士生@rupspace和Klaus Greff的工作。将高速公路神经网络的门设置为1.0,实际上给我们带来了7个月后发布的ResNet。
深度学习的核心在于神经网络的深度。LSTM为递归神经网络带来了几乎无限的深度;高速公路网络则将其引入了前馈神经网络。
20.64K
AGI?有一天会实现,但还没有。目前唯一运行良好的AI是屏幕后面的AI [12-17]。但在屏幕后通过图灵测试 [9] 相比于在现实世界中为真实机器人实现真正的AI要容易得多。当前没有任何AI驱动的机器人可以被认证为水管工 [13-17]。因此,图灵测试不是衡量智能的好标准(智商也不是)。没有掌握物理世界的AGI就不是AGI。这就是为什么我在2004年创建了TUM CogBotLab来学习机器人 [5],在2014年共同创立了一家专注于物理世界AI的公司 [6],并在TUM、IDSIA和现在的KAUST组建团队致力于婴儿机器人 [4,10-11,18]。这些软机器人不仅仅是盲目模仿人类,它们也不是通过像LLMs/VLMs那样下载网络来工作。不。相反,它们利用人工好奇心的原理来改进它们的神经世界模型(这是我在1990年使用的两个术语 [1-4])。这些机器人配备了大量传感器,但只有弱的执行器,因此在通过设计和运行自己的自发实验收集有用数据时,它们不容易伤害自己 [18]。
值得注意的是,自1970年代以来,许多人嘲笑我建立一个比我自己更聪明的自我改进AGI然后退休的旧目标。然而,最近,许多人终于开始认真对待这一点,现在他们中的一些人突然变得过于乐观。这些人往往对我们为实现真正的AI需要解决的剩余挑战一无所知。我的2024年TED演讲 [15] 总结了其中的一些。
参考文献(在网上很容易找到):
[1] J. Schmidhuber. 使世界可微分:关于使用完全递归自监督神经网络(NNs)在非平稳环境中进行动态强化学习和规划。TR FKI-126-90,TUM,1990年2月,修订于1990年11月。本文还介绍了通过生成对抗网络实现的人工好奇心和内在动机,其中生成器NN与预测器NN在极小极大博弈中对抗。
[2] J. S. 在模型构建神经控制器中实现好奇心和无聊的可能性。在J. A. Meyer和S. W. Wilson编辑的《从动物到Animats的适应性行为模拟国际会议论文集》中,第222-227页。MIT Press/Bradford Books,1991年。基于[1]。
[3] J.S. AI Blog (2020)。1990年:使用递归世界模型和人工好奇心进行规划和强化学习。总结了[1][2]和许多后来的论文,包括[7][8]。
[4] J.S. AI Blog (2021):自1990年以来的人工好奇心与创造力。总结了[1][2]和许多后来的论文,包括[7][8]。
[5] J.S. TU Munich CogBotLab学习机器人(2004-2009)
[6] NNAISENSE,成立于2014年,专注于物理世界的AI
[7] J.S. (2015)。学习思考:用于新组合的强化学习(RL)控制器和递归神经世界模型的算法信息理论。arXiv 1210.0118。第5.3节描述了一个RL提示工程师,它学习查询其模型以进行抽象推理、规划和决策。今天这被称为“思维链”。
[8] J.S. (2018)。一个大网包罗万象。arXiv 1802.08864。另见专利US11853886B2和我的DeepSeek推文:DeepSeek使用了2015年强化学习提示工程师[7]及其2018年改进[8]的元素,将[7]的RL机器和世界模型合并为一个单一网络。这使用了我1991年的神经网络蒸馏程序:一个蒸馏的思维链系统。
[9] J.S. 图灵被高估了。这不是图灵的错。AI Blog (2021,曾在Hacker News上排名第一)
[10] J.S. 智能机器人将对生活感到着迷。F.A.Z.,2015年
[11] J.S. 在Falling Walls:人工智能的过去、现在和未来。Scientific American,Observations,2017年。
[12] J.S. KI是德国的巨大机会。F.A.Z.,2018年
[13] H. Jones. J.S. 说他的毕生工作不会导致反乌托邦。Forbes Magazine,2023年。
[14] J.S. 在上海的Jazzyear采访,2024年。
[15] J.S. 在TED AI维也纳的TED演讲(2024年):为什么2042年将是AI的重要一年。请参见附加的视频剪辑。
[16] J.S. 建造AI控制的多功能机器人!F.A.Z.,2024年
[17] J.S. 1995-2025:德国和日本的衰落与美国和中国的对比。多功能机器人能否推动复兴?AI Blog,2025年1月,基于[16]。
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. 向具有丰富交互能力的极其坚固的婴儿机器人迈进,以支持先进的机器学习算法。预印本arxiv 2404.08093,2024年。
66.97K
DeepSeek [1] 使用2015年强化学习提示工程师 [2] 的元素及其2018年的改进 [3],将 [2] 的强化学习机器和世界模型合并为一个单一的网络,通过1991年的神经网络蒸馏程序 [4]:一个蒸馏的思维链系统。
参考文献(在网上容易找到):
[1] #DeepSeekR1 (2025):通过强化学习激励LLMs的推理能力。arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015)。关于学习思考:算法信息理论用于强化学习控制器和递归神经世界模型的新组合。arXiv 1210.0118。第5.3节描述了强化学习(RL)提示工程师,该工程师学习主动和迭代地查询其模型以进行抽象推理、规划和决策。
[3] JS (2018)。一个为所有事物而设的大网络。arXiv 1802.08864。另见US11853886B2。本文将 [2] 的强化学习者和世界模型(例如,基础模型)合并为一个单一网络,使用1991年的神经网络蒸馏程序 [4]。本质上,现在称为RL的“思维链”系统,其中后续改进不断蒸馏到一个单一网络中。另见 [5]。
[4] JS (1991)。使用历史压缩原理学习复杂的扩展序列。神经计算,4(2):234-242,1992。基于TR FKI-148-91,TUM,1991。第一个基于深度递归神经网络层次的工作深度学习者(具有不同的自组织时间尺度),通过无监督预训练(CHatGPT中的P)和预测编码克服消失梯度问题。此外:将教师网络(分块器)压缩或蒸馏到学生网络(自动化器)中,该网络不会忘记其旧技能——这种方法现在被广泛使用。另见 [6]。
[5] JS (AI博客,2020)。规划与强化学习及递归世界模型和人工好奇心的30周年(1990年,引入高维奖励信号和GAN原理)。包含上述 [2][3] 的摘要。
[6] JS (AI博客,2021)。30周年:第一次非常深度学习与无监督预训练(1991) [4]。无监督的层次预测编码找到序列数据的紧凑内部表示,以促进下游学习。该层次可以蒸馏 [4] 为一个单一的深度神经网络。1993年:解决深度 >1000 的问题。

787.05K
2024年诺贝尔物理学奖授予Hopfield和Hinton,结果却成了抄袭的诺贝尔奖。他们重新发表了由Ivakhnenko和Amari在1960年代和1970年代在乌克兰和日本开发的方法,以及其他技术,却没有引用原始发明者。现代AI的重要算法都不是由Hopfield和Hinton创造的。
今天我发布了一份详细的技术报告[NOB]:
当然,我请神经网络先驱和AI专家检查过,以确保其无懈可击。
现在我是否可以接受地指导年轻的博士生去阅读旧论文,然后重写并重新提交,仿佛是他们自己的作品?无论意图如何,这个奖项表明,是的,这完全可以。
一些人因抄袭而失去了头衔或工作,例如哈佛前校长[PLAG7]。但在这个诺贝尔奖之后,导师们如何继续告诉他们的学生,他们应该不惜一切代价避免抄袭?
众所周知,抄袭可以是“无意的”或“故意或鲁莽的”[PLAG1-6],而其中较无辜的一种在这里可能确实部分存在。但科学有一套处理“多重发现”和抄袭的成熟方法——无论是无意的[PLAG1-6][CONN21]还是故意的[FAKE,FAKE2]——基于诸如出版物和专利的时间戳等事实。科学的道德要求无意的抄袭者通过勘误表纠正他们的出版物,然后在未来正确地引用原始来源。获奖者没有这样做;相反,获奖者继续为其他研究人员的发明收集引用[NOB][DLP]。这种行为难道不会将无意的抄袭[PLAG1-6]变成一种故意的形式[FAKE2]吗?
我真的很担心这对所有年轻学生传达的信息。
参考文献
[NOB] J. Schmidhuber (2024). A Nobel Prize for Plagiarism. Technical Report IDSIA-24-24.
[NOB+] 推文:2024年诺贝尔物理学奖授予Hopfield和Hinton,奖励了计算机科学中的抄袭和错误归属。主要是关于Amari的“Hopfield网络”和“玻尔兹曼机”。(仅为诺贝尔基金会原始公告的1/7受欢迎)
[DLP] J. Schmidhuber (2023). How 3 Turing awardees republished key methods and ideas whose creators they failed to credit. Technical Report IDSIA-23-23, Swiss AI Lab IDSIA, 14 Dec 2023.
[DLP+] [DLP]的推文:
[PLAG1] 牛津大学的抄袭类型指南(2021)。引用:“抄袭可能是故意的或鲁莽的,或无意的。”
[PLAG2] 杰克逊州立社区学院(2022)。无意抄袭。
[PLAG3] R. L. Foster. 避免无意抄袭。儿科护理专家杂志;霍博肯,第12卷,第1期,2007年。
[PLAG4] N. Das. 无论是故意的还是无意的,抄袭从来都不是正确的:关于印度大学如何被建议处理抄袭的说明。临床研究视角9:56-7, 2018。
[PLAG5] InfoSci-OnDemand (2023). 什么是无意抄袭?
[PLAG6] (2022). 如何避免意外和无意抄袭(2023)。互联网档案馆中的副本。引用:“无论是意外的还是故意的,抄袭仍然是抄袭。”
[PLAG7] 康奈尔评论,2024年。哈佛校长因抄袭丑闻辞职。2024年1月6日。
[FAKE] H. Hopf, A. Krief, G. Mehta, S. A. Matlin. 假科学和知识危机:无知可能是致命的。皇家学会开放科学,2019年5月。引用:“科学家必须愿意在看到社交媒体、传统印刷或广播媒体中呈现虚假信息时发声”以及“必须反对流通中的虚假信息和假科学,并强烈反驳宣传它的公众人物。”
[FAKE2] L. Stenflo. 聪明的抄袭者是最危险的。自然,卷427,第777页(2004年2月)。引用:“更糟糕的是,在我看来,……是科学家用不同的词重写以前的发现,故意隐藏他们想法的来源,然后在随后的几年中强烈声称他们发现了新现象的情况。”

721.95K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可