Saya berharap bahwa pengerjaan model berkemampuan suara akan mengarah pada solusi semacam ini. Streaming sangat sulit, tetapi rasanya seperti keadaan akhir dalam evolusi sistem canggih.
John Carmack
John Carmack11 Agu, 23.38
Percakapan alami mencakup interupsi dan pembicaraan tentang orang, yang sulit bagi LLM untuk dimodelkan sebagai urutan autoregresif tunggal. Saya yakin Anda bisa melangkah cukup jauh dengan membuat urutan teks dengan skrip film seperti jeda di tengah kalimat, tetapi sepertinya solusi sebenarnya akan melibatkan aliran paralel mendengarkan dan berpikir dengan berbicara mengantri untuk jeda atau naik ke prioritas interupsi. Mencampur token dari aliran yang berbeda dan melakukan sesuatu yang khusus dengan perhatian tampaknya masuk akal.
1,64K