一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

自从我第一次见到阿尔纳夫·卡普尔（Arnav Kapur）以来，已经过去了一年，他的设备AlterEgo从一个粗糙的原型发展到模拟心灵感应。阿尔纳夫自我七年前第一次听说他以来，一直是我的灵感来源，我想分享他的故事。我第一次听说阿尔纳夫是通过他2017年在麻省理工学院媒体实验室的病毒视频，观看人数接近100万。这让我想起了2019年同一小组的另一位印度人普拉纳夫·米斯特里（Pranav Mistry）的一次类似演讲，他是我（和许多其他人）决定去美国学习的主要原因之一。我通过他的弟弟认识了他，弟弟这些年来我也逐渐熟悉（他自己也是个天才）。我立刻问他：“你为什么不将这个商业化？这只是一个华丽的学术演示吗？”他回答说：“我现在正在做这件事。随着大型语言模型（LLMs）的出现，我认为现在是时候了。” 但第一次演示很粗糙。设置需要15分钟。电极需要贴在你的脸颊上。它的工作成功率大约是80%。新用户的校准甚至需要更长时间。它只能说4000个句子。然而，这仍然感觉像魔法。我指着其中一个句子，让他的同事斯科特（Scott）默默地说出来。几秒钟内，我几乎没有动一下肌肉，就收到了那句话的文本。我根本看不到他的嘴动！但无声的语言真的可能吗？硬件是困难的。传感器太多，无法使用。没有持续接触皮肤就无法工作（胡须是个问题）。头部运动过多也是个问题。电池是外部的。校准的摩擦太大。你只能说几个句子！快进一年，你会看到类似心灵感应的东西。传感器缩小了。设备看起来像开放耳式耳机。无需15分钟的设置。你可以说大多数单词。AlterEgo读取多种语言的体积细粒度神经肌肉信号并将其翻译成文本。它允许你在用户几乎不动嘴的情况下理解他们所说的话，没有噪音。硬件仍然很难。在这之前还有很长的路要走，才能让最终用户使用。但要花费十多年时间致力于构建类似未来的硬件，需要一些真正的勇气和卓越的工程技能。我们需要更多像阿尔纳夫和他的团队这样的工程师。