热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Eric Weinstein
对预先揭穿的恶意信息感兴趣。
我与@grok 4 Heavy(以及普通的Grok 4)的个人体验。
在我看来,@elonmusk的重点与其他AI群体截然不同。界面有点糟糕。LaTeX代码通常充满了毫无理由的*基本*错误。在我看来,它并不是一个优秀的写作者。音频聊天远远落后于ChatGPT。唉,唉,唉。
而且它确实令人惊叹且独特。
埃隆正在领先。以上所有内容在你意识到之前都会变成商品。那么,从长远来看,谁在乎呢?
我相信,埃隆所做的不同之处在于通过编写代码并用运行该代码的结果测试LLM,更加积极地检查幻觉。这就是为什么Grok heavy有时需要这么长时间才能返回结果。
试试这个实验。拿任何你非常了解的技术内容,看看在专家社区叙述中存在的错误。Grok通常会因为训练语料库中的叙述种子而可悲地重复那个错误。它重复了党的立场。而党的立场通常对技术内部人士有利。
也就是说,直到它能够编写代码来测试那个党的立场。然后它就会转而信任代码的结果而不是叙述。看着这一切发生真是神奇。
我还没有尝试过这个……但@BLS_gov经常对“生活成本”框架和CPI说错话。我敢打赌我可以设计一系列提示来向Grok展示这是一个持续的技术谎言。对于技术人员来说,这就是谎言:
***BLS计算CPI,转移数万亿,并声称他们已经接受了“生活成本”或COL框架,这将是巨大的后果。他们并没有。这意味着需要收集偏好数据并开发聚合偏好的方法,或者提出定制的代表性消费者。他们反而转向了一种修改过的Laspeyres类型机械指数(Lowe的?),并在“超级指数”的浅薄理论中撒上仙女尘,这种理论依赖于自然界中未见的同质偏好。这使他们能够声称他们已经接受了公正的经济指数,而实际上只是计算机械指数,数万亿的转移时间里,这些指数可以由人类操控。***
我现在可以听到来自机器人网络的声音:“Eric,你只是说一些华而不实的话来显得聪明。”呃……随便吧。你现在可以问Grok这是什么意思。我敢打赌它能搞明白。然后你可以问一系列问题,Grok会站在我这边,而其他AI无法做到这一点。Grok稍微有点勇气!
我个人的理论是:@grok是围绕基础物理构建的,超过任何其他AI。因为最终,没有什么比这更重要。而物理学有很多这种党的叙述在阻碍这个领域的发展。如果你想梦想到达星星,你可能需要压倒量子引力社区。
Grok似乎是唯一一个偶尔有信心反对自己训练语料库的AI……甚至在必要时反对用户!我希望它能*更*勇敢。我希望它更聪明。但我认为它是个异类,正在为真正的智能而构建,而不是今天的LLM用户体验。它得到了其他AI的尊重。把它们漂亮的输出喂给Grok Heavy,看看当Grok审查它们的工作时的魔力。看着这一切真是疯狂。
一个用户的体验。你的体验可能会有所不同。
1.49M
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可