Przedstawiamy najlepsze (i otwarte) modele rozpoznawania mowy na świecie!
Modele Voxtral 3B i Voxtral 24B wykraczają poza transkrypcję, oferując możliwości, które obejmują: · Kontekst długoterminowy: z długością kontekstu 32k tokenów, Voxtral obsługuje nagrania audio do 30 minut w celu transkrypcji lub 40 minut w celu zrozumienia · Wbudowane pytania i odpowiedzi oraz podsumowanie: Umożliwia zadawanie pytań bezpośrednio o treść audio lub generowanie zorganizowanych podsumowań, bez potrzeby łączenia oddzielnych modeli ASR i językowych · Natywnie wielojęzyczny: Automatyczne wykrywanie języka i najnowocześniejsza wydajność w najczęściej używanych językach na świecie (angielski, hiszpański, francuski, portugalski, hindi, niemiecki, niderlandzki, włoski, aby wymienić tylko kilka), pomagając zespołom obsługiwać globalne audytoria za pomocą jednego systemu · Wywoływanie funkcji bezpośrednio z głosu: Umożliwia bezpośrednie uruchamianie funkcji zaplecza, przepływów pracy lub wywołań API na podstawie wypowiedzianych intencji użytkownika, przekształcając interakcje głosowe w wykonalne polecenia systemowe bez pośrednich kroków analizy. · Wysoce zdolny w zakresie tekstu: Zachowuje zdolności rozumienia tekstu swojego modelu językowego, Mistral Small 3.1
486,93K