we bewegen eindelijk van spraak-naar-tekst naar omgeving-naar-context!! standaard spraakassistenten gebruiken een ASR (spraakherkenning) pijplijn die 90% van de akoestische context wegneemt. wat OpenHome laat zien, gebruikt waarschijnlijk native audio-transformers of CLAP (Contrastive Language-Audio Pretraining) embeddings om ruwe audio-spectrogrammen continu te verwerken. het detecteert Akoestische Gebeurtenissen (AED) en paralinguïstische signalen (zuchten, toon) in plaats van alleen woorden. voeg nu een altijd-aan camera-feed toe met visuele transformers, en je hebt je agent ogen gegeven om zijn ruimtelijke gehoor te evenaren. ware multimodale sensorfusie kan handmatige aansturing overbodig maken gewoon iets om over na te denken