Konečně přecházíme z převodu řeči na text k prostředí do kontextu!! standardní hlasoví asistenti používají ASR (rozpoznávání řeči) pipeline, která odstraňuje 90 % akustického kontextu. to, co ukazuje OpenHome, pravděpodobně využívá nativní audio transformátory nebo CLAP (Contrastive Language-Audio Pretraining) embeddingy k kontinuálnímu zpracování surových audio spektrogramů. detekuje akustické události (AED) a paralingvistické signály (vzdechy, tón) místo pouhých slov. Přidejte stále zapnutý kamerový přenos s vizuálními transformátory a prostě jste agentovi dali oči odpovídající jeho prostorovému sluchu. Pravá multimodální fúze senzorů může učinit manuální zadávání zastaralým Jen něco k zamyšlení