Нарешті ми переходимо від мовлення до тексту до середовища до контексту!! стандартні голосові асистенти використовують ASR (розпізнавання мовлення) конвеєр, який забирає 90% акустичного контексту. те, що показує OpenHome, ймовірно, використовує вбудовані аудіотрансформатори або CLAP (Contrastive Language-Audio Pretraining) embeddings для безперервної обробки сирих аудіоспектрограм. він виявляє акустичні події (AED) і паралінгвістичні сигнали (зітхання, тон) замість просто слів. Тепер додайте постійну камеру з візуальними трансформерами, і вам просто дали агенту очі, які відповідають просторовому слуху. Справжнє мультимодальне злиття сенсорів може зробити ручне підказування застарілим Просто варто подумати