Présentation des meilleurs modèles de reconnaissance vocale (et ouverts) au monde !
Les modèles Voxtral 3B et Voxtral 24B vont au-delà de la transcription avec des capacités qui incluent : · Contexte long : avec une longueur de contexte de 32k tokens, Voxtral gère des audios allant jusqu'à 30 minutes pour la transcription, ou 40 minutes pour la compréhension · Q&R et résumé intégrés : Prend en charge les questions posées directement sur le contenu audio ou la génération de résumés structurés, sans avoir besoin de chaîner des modèles ASR et de langage séparés · Multilingue natif : Détection automatique de la langue et performances de pointe dans les langues les plus utilisées au monde (anglais, espagnol, français, portugais, hindi, allemand, néerlandais, italien, pour n'en nommer que quelques-unes), aidant les équipes à servir des audiences mondiales avec un seul système · Appels de fonction directement à partir de la voix : Permet de déclencher directement des fonctions backend, des flux de travail ou des appels API en fonction des intentions exprimées par l'utilisateur, transformant les interactions vocales en commandes système exploitables sans étapes de parsing intermédiaires. · Très capable en texte : Conserve les capacités de compréhension du texte de son modèle de langage sous-jacent, Mistral Small 3.1.
486,92K