Smart Turn v2: відкритий вихідний код, вбудоване аудіо виявлення повороту на 14 мовах. Нова контрольна точка відкритого коду, відкриті дані, відкритий код навчання, семантична модель VAD на @huggingface, @FAL та @pipecat_ai. - У 3 рази швидший висновок (12 мс на L40) - 14 мов (на 13 більше, ніж у версії 1, яка була лише англійською) - Новий синтетичний набір даних «chirp_3_all» з ~163 тисячами аудіо семплів - Точність 99% за отриманими тестовими даними «human_5_all» Хороше виявлення поворотів має вирішальне значення для голосових агентів. Ця модель «розуміє» як семантичні, так і звукові патерни, і пом'якшує компроміс голосового штучного інтелекту між небажаною затримкою ходу та тим, що агент перебиває людей, перш ніж вони закінчать говорити. Скрипти навчання як для @modal_labs, так і для локального навчання знаходяться в репозиторії. Ми хочемо, щоб зробити внесок або персоналізацію цієї моделі було якомога простіше! Ось демонстрація моделі розумного повороту з налаштуваннями за замовчуванням, спрямованими на досягнення загального часу виявлення повороту 400 мс. Ви також можете налаштувати речі швидше. Ви можете допомогти, надаючи дані, досліджуючи архітектуру або очищаючи дані з відкритих джерел! Продовжуйте читати...
36,94K