Smart Turn v2: otwarte źródło, natywne wykrywanie dźwięku w 14 językach. Nowy punkt kontrolny otwartego źródła, otwartych danych, otwartego kodu treningowego, modelu semantycznego VAD na @huggingface, @FAL i @pipecat_ai. - 3x szybsze wnioskowanie (12ms na L40) - 14 języków (13 więcej niż v1, który był tylko w języku angielskim) - Nowy syntetyczny zbiór danych `chirp_3_all` z ~163k próbek audio - 99% dokładności na zarezerwowanych danych testowych `human_5_all` Dobre wykrywanie zwrotów jest kluczowe dla agentów głosowych. Ten model "rozumie" zarówno wzorce semantyczne, jak i audio, i łagodzi kompromis AI głosowego między niepożądaną latencją zwrotu a przerywaniem ludzi, zanim skończą mówić. Skrypty treningowe zarówno dla @modal_labs, jak i lokalnego treningu znajdują się w repozytorium. Chcemy, aby było jak najłatwiej przyczynić się do tego modelu lub dostosować go! Oto demonstracja uruchamiająca model smart-turn z domyślnymi ustawieniami, mająca na celu osiągnięcie łącznego czasu wykrywania zwrotu wynoszącego 400ms. Możesz również dostosować parametry, aby było szybciej. Możesz pomóc, przyczyniając się danymi, przeprowadzając eksperymenty architektoniczne lub porządkując otwarte dane źródłowe! Czytaj dalej ...
36,93K