Estou esperançoso de que o trabalho em modelos com ativação por voz levará a este tipo de solução. O streaming é tão difícil, mas parece ser o estado final na evolução de sistemas sofisticados.
John Carmack
John Carmack11/08, 23:38
Uma conversa natural inclui interrupções e falar por cima das pessoas, o que é difícil para um LLM modelar como uma única sequência autoregressiva. Tenho certeza de que você pode avançar bastante criando uma sequência de texto com quebras semelhantes a roteiros de filmes no meio da frase, mas parece que a verdadeira solução envolveria fluxos paralelos de escuta e pensamento, com a fala enfileirada para pausas ou subindo para uma prioridade de interrupção. Misturar tokens de diferentes fluxos e fazer algo personalizado com a atenção parece plausível.
1,64K