Vi går äntligen från tal till text till miljö till kontext!! standardröstassistenter använder en ASR (taligenkänning) pipeline som tar bort 90 % av den akustiska kontexten. det OpenHome visar använder troligen inbyggda ljudtransformatorer eller CLAP (Contrastive Language-Audio Pretraining) inbäddningar för att kontinuerligt bearbeta råa ljudspektrogram. den upptäcker akustiska händelser (AED) och paralingvistiska signaler (suckar, ton) istället för bara ord. Inkludera nu en alltid påslagen kameraflöde med visuella transformatorer, och du har precis gett din agent ögon för att matcha dess rumsliga hörsel. Äkta multimodal sensorfusion kan göra manuell promptning föråldrad Bara något att fundera på