Představujeme nejlepší (a otevřené) modely rozpoznávání řeči na světě!
Modely Voxtral 3B i Voxtral 24B jdou nad rámec přepisu díky funkcím, které zahrnují: · Dlouhý kontext: s délkou kontextu 32 tisíc tokenů zpracovává Voxtral zvuky až 30 minut pro přepis nebo 40 minut pro porozumění · Integrované otázky a odpovědi a shrnutí: Podporuje kladení otázek přímo týkajících se zvukového obsahu nebo generování strukturovaných souhrnů, aniž by bylo nutné řetězit oddělené modely ASR a jazykové modely. · Nativní vícejazyčnost: Automatická detekce jazyka a nejmodernější výkon v nejpoužívanějších jazycích na světě (angličtina, španělština, francouzština, portugalština, hindština, němčina, holandština, italština, abychom jmenovali alespoň některé), pomáhá týmům obsluhovat globální publikum pomocí jediného systému · Volání funkcí přímo z hlasu: Umožňuje přímé spouštění backendových funkcí, pracovních postupů nebo volání API na základě záměrů mluvených uživatelů, čímž se hlasové interakce mění na akční systémové příkazy bez mezikroků analýzy. · Vysoce schopný pracovat s textem: Zachovává si schopnost porozumět textu páteře jazykového modelu, Mistral Small 3.1
486,93K