自从我第一次见到阿尔纳夫·卡普尔(Arnav Kapur)以来,已经过去了一年,他的设备AlterEgo从一个粗糙的原型发展到模拟心灵感应。 阿尔纳夫自我七年前第一次听说他以来,一直是我的灵感来源,我想分享他的故事。 我第一次听说阿尔纳夫是通过他2017年在麻省理工学院媒体实验室的病毒视频,观看人数接近100万。这让我想起了2019年同一小组的另一位印度人普拉纳夫·米斯特里(Pranav Mistry)的一次类似演讲,他是我(和许多其他人)决定去美国学习的主要原因之一。 我通过他的弟弟认识了他,弟弟这些年来我也逐渐熟悉(他自己也是个天才)。我立刻问他:“你为什么不将这个商业化?这只是一个华丽的学术演示吗?”他回答说:“我现在正在做这件事。随着大型语言模型(LLMs)的出现,我认为现在是时候了。” 但第一次演示很粗糙。设置需要15分钟。电极需要贴在你的脸颊上。它的工作成功率大约是80%。新用户的校准甚至需要更长时间。它只能说4000个句子。然而,这仍然感觉像魔法。我指着其中一个句子,让他的同事斯科特(Scott)默默地说出来。几秒钟内,我几乎没有动一下肌肉,就收到了那句话的文本。我根本看不到他的嘴动! 但无声的语言真的可能吗?硬件是困难的。传感器太多,无法使用。没有持续接触皮肤就无法工作(胡须是个问题)。头部运动过多也是个问题。电池是外部的。校准的摩擦太大。你只能说几个句子! 快进一年,你会看到类似心灵感应的东西。传感器缩小了。设备看起来像开放耳式耳机。无需15分钟的设置。你可以说大多数单词。AlterEgo读取多种语言的体积细粒度神经肌肉信号并将其翻译成文本。它允许你在用户几乎不动嘴的情况下理解他们所说的话,没有噪音。 硬件仍然很难。在这之前还有很长的路要走,才能让最终用户使用。但要花费十多年时间致力于构建类似未来的硬件,需要一些真正的勇气和卓越的工程技能。我们需要更多像阿尔纳夫和他的团队这样的工程师。