我希望语音启用模型的工作能导致这种解决方案。流媒体是如此困难,但它感觉像是复杂系统演变的最终状态。
John Carmack
John Carmack8月11日 23:38
自然对话包括打断和与人交谈,这对于大型语言模型(LLM)来说很难建模为单一的自回归序列。我相信通过创建一个像电影剧本一样在句中有中断的文本序列,你可以走得很远,但似乎真正的解决方案涉及并行的听和思考流,并在暂停时或在打断优先级上排队说话。从不同流中混合标记并对注意力进行自定义处理似乎是可行的。
1.64K