Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vă prezentăm cele mai bune (și deschise) modele de recunoaștere a vorbirii din lume!

Atât modelele Voxtral 3B, cât și Voxtral 24B merg dincolo de transcriere cu capabilități care includ:
· Context de formă lungă: cu o lungime de context token de 32k, Voxtral gestionează audio până la 30 de minute pentru transcriere sau 40 de minute pentru înțelegere
· Întrebări și răspunsuri și rezumat încorporate: Acceptă punerea de întrebări direct despre conținutul audio sau generarea de rezumate structurate, fără a fi nevoie să înlănțuiți modele ASR și lingvistice separate
· Multilingv nativ: detectarea automată a limbii și performanțe de ultimă generație în cele mai utilizate limbi din lume (engleză, spaniolă, franceză, portugheză, hindi, germană, olandeză, italiană, pentru a numi câteva), ajutând echipele să deservească publicul global cu un singur sistem
· Apelarea funcțiilor direct de la voce: Permite declanșarea directă a funcțiilor backend, fluxurilor de lucru sau apelurilor API pe baza intențiilor vorbite ale utilizatorului, transformând interacțiunile vocale în comenzi de sistem acționabile fără pași intermediari de analiză.
· Foarte capabil la text: Păstrează capacitățile de înțelegere a textului din coloana vertebrală a modelului său de limbaj, Mistral Small 3.1
486,93K
Limită superioară
Clasament
Favorite