我希望語音啟用模型的工作能夠導致這種解決方案。串流是如此困難,但它感覺像是複雜系統演變的最終狀態。
John Carmack
John Carmack8月11日 23:38
自然對話包括打斷和重疊說話,這對於大型語言模型來說,作為單一自回歸序列來建模是困難的。我相信通過創建一個類似電影劇本的文本序列,在句子中間進行斷開,你可以走得相當遠,但看起來真正的解決方案將涉及平行的聆聽和思考流,並在暫停時或在打斷優先級上排隊說話。從不同流中混合標記並對注意力進行自定義處理似乎是可行的。
1.62K