Finalmente estamos passando de fala para texto para ambiente-para-contexto!! assistentes de voz padrão usam um pipeline ASR (reconhecimento de fala) que remove 90% do contexto acústico. o que o OpenHome está mostrando provavelmente usa transformadores nativos de áudio ou embeddings CLAP (Pré-treinamento Contrastivo de Áudio em Língua-Áudio) para processar espectrogramas de áudio bruto continuamente. ele detecta Eventos Acústicos (DEA) e sinais paralinguísticos (suspiros, tom) em vez de apenas palavras. Agora incorpore um feed de câmera sempre ligado com transformadores visuais, e você só dá aos seus agentes os olhos para combinar com a audição espacial. A verdadeira fusão multimodal de sensores pode tornar obsoleta a solicitação manual Só algo para pensar