¡Por fin estamos pasando de la voz a texto a la de entorno a contexto! los asistentes de voz estándar utilizan una tubería ASR (reconocimiento de voz) que elimina el 90% del contexto acústico. lo que muestra OpenHome probablemente utiliza transformadores de audio nativos o incrustaciones CLAP (Preentrenamiento Contrastivo de Lenguaje-Audio) para procesar espectrogramas de audio en bruto de forma continua. detecta Eventos Acústicos (DEA) y señales paralingüísticas (suspiros, tono) en lugar de solo palabras. Ahora incorpora una cámara siempre activa con transformadores visuales, y simplemente le das a tu agente ojos para que coincidan con su audición espacial. La verdadera fusión multimodal de sensores puede hacer obsoleta la indicación manual Solo es algo en lo que pensar