Tengo la esperanza de que el trabajo en modelos habilitados por voz conduzca a este tipo de solución. La transmisión es muy difícil, pero parece ser el estado final en la evolución de sistemas sofisticados.
John Carmack
John Carmack11 ago, 23:38
Una conversación natural incluye interrupciones y hablar por encima de las personas, lo cual es difícil para un LLM modelar como una única secuencia autorregresiva. Estoy seguro de que puedes avanzar bastante creando una secuencia de texto con pausas al estilo de un guion de película en medio de la oración, pero parece que la verdadera solución implicaría flujos paralelos de escucha y pensamiento, con el habla en cola para pausas o priorizando interrupciones. Mezclar tokens de diferentes flujos y hacer algo personalizado con la atención parece plausible.
1,65K