Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: відкритий вихідний код, вбудоване аудіо виявлення повороту на 14 мовах.
Нова контрольна точка відкритого коду, відкриті дані, відкритий код навчання, семантична модель VAD на @huggingface, @FAL та @pipecat_ai.
- У 3 рази швидший висновок (12 мс на L40)
- 14 мов (на 13 більше, ніж у версії 1, яка була лише англійською)
- Новий синтетичний набір даних «chirp_3_all» з ~163 тисячами аудіо семплів
- Точність 99% за отриманими тестовими даними «human_5_all»
Хороше виявлення поворотів має вирішальне значення для голосових агентів. Ця модель «розуміє» як семантичні, так і звукові патерни, і пом'якшує компроміс голосового штучного інтелекту між небажаною затримкою ходу та тим, що агент перебиває людей, перш ніж вони закінчать говорити.
Скрипти навчання як для @modal_labs, так і для локального навчання знаходяться в репозиторії. Ми хочемо, щоб зробити внесок або персоналізацію цієї моделі було якомога простіше!
Ось демонстрація моделі розумного повороту з налаштуваннями за замовчуванням, спрямованими на досягнення загального часу виявлення повороту 400 мс. Ви також можете налаштувати речі швидше.
Ви можете допомогти, надаючи дані, досліджуючи архітектуру або очищаючи дані з відкритих джерел! Продовжуйте читати...
36,94K
Найкращі
Рейтинг
Вибране