Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Presentamos los mejores (y abiertos) modelos de reconocimiento de voz del mundo!

Los modelos Voxtral 3B y Voxtral 24B van más allá de la transcripción con capacidades que incluyen:
· Contexto de formato largo: con una longitud de contexto de token de 32k, Voxtral maneja audios de hasta 30 minutos para la transcripción o 40 minutos para la comprensión
· Preguntas y respuestas y resúmenes integrados: Admite hacer preguntas directamente sobre el contenido de audio o generar resúmenes estructurados, sin necesidad de encadenar modelos de lenguaje y ASR separados
· Multilingüe nativo: detección automática de idiomas y rendimiento de última generación en los idiomas más utilizados del mundo (inglés, español, francés, portugués, hindi, alemán, holandés, italiano, por nombrar algunos), lo que ayuda a los equipos a atender audiencias globales con un solo sistema.
· Llamada a funciones directamente desde la voz: permite la activación directa de funciones de backend, flujos de trabajo o llamadas a la API en función de las intenciones habladas del usuario, convirtiendo las interacciones de voz en comandos del sistema accionables sin pasos de análisis intermedios.
· Alta capacidad en texto: Conserva las capacidades de comprensión de texto de su columna vertebral de modelo de lenguaje, Mistral Small 3.1
486.91K
Populares
Ranking
Favoritas