Vă prezentăm cele mai bune (și deschise) modele de recunoaștere a vorbirii din lume!
Atât modelele Voxtral 3B, cât și Voxtral 24B merg dincolo de transcriere cu capabilități care includ: · Context de formă lungă: cu o lungime de context token de 32k, Voxtral gestionează audio până la 30 de minute pentru transcriere sau 40 de minute pentru înțelegere · Întrebări și răspunsuri și rezumat încorporate: Acceptă punerea de întrebări direct despre conținutul audio sau generarea de rezumate structurate, fără a fi nevoie să înlănțuiți modele ASR și lingvistice separate · Multilingv nativ: detectarea automată a limbii și performanțe de ultimă generație în cele mai utilizate limbi din lume (engleză, spaniolă, franceză, portugheză, hindi, germană, olandeză, italiană, pentru a numi câteva), ajutând echipele să deservească publicul global cu un singur sistem · Apelarea funcțiilor direct de la voce: Permite declanșarea directă a funcțiilor backend, fluxurilor de lucru sau apelurilor API pe baza intențiilor vorbite ale utilizatorului, transformând interacțiunile vocale în comenzi de sistem acționabile fără pași intermediari de analiză. · Foarte capabil la text: Păstrează capacitățile de înțelegere a textului din coloana vertebrală a modelului său de limbaj, Mistral Small 3.1
486,93K