可能解决AI对齐问题的人 🦸‍♂️ 斯蒂文·伯恩斯博士(@steve47285)是少数几位既理解对齐为何困难,又认真尝试解决这一问题的人之一。 他对末日的概率高达90%,但他认为大型语言模型(LLMs)将在真正危险之前达到平台期,真正的威胁将来自基于演员-评论家强化学习的下一代“类脑AGI”。 在获得加州大学伯克利分校的物理学博士学位和哈佛大学的博士后研究后,他成为了@AsteraInstitute的AGI安全研究员。他现在深入研究人类大脑的逆向工程,了解人类大脑如何实际运作,这些知识可能有助于我们解决技术AI对齐问题。 在这一集特别深入的节目中——因为对我的其他嘉宾表示尊重,我不必浪费时间与他争论明显的表面问题——我们讨论了他的“两个子系统”大脑模型,为什么当前的AI安全方法未能达到目标,他与社会进化方法的分歧,以及理解人类神经科学为何对构建对齐的AGI至关重要。
在您的播客播放器中搜索“Doom Debates”或在 YouTube 上观看:
客人是对的罕见情节!
Liron Shapira
Liron Shapira2025年7月30日
Most of my Doom Debates guests, with all due respect, are obviously wrong. This week we finally have someone who's ~100% right about everything, and has great credentials to back it up. Get ready for @steve47285…
9.14K