Los modelos de voz a voz suenan increíbles en teoría... hasta que se implementan a escala empresarial. Es fácil ver por qué la gente está emocionada. Al omitir los modelos separados de voz a texto y de texto a voz, los modelos S2S ofrecen demostraciones emocionantes que capturan el tono, la emoción y el matiz con una latencia mínima. Los modelos S2S pueden ser un logro técnico increíble, pero aún son difíciles de controlar en producción y más difíciles de garantizar que los flujos de trabajo se ejecuten con precisión. Muchas de las demostraciones de voz S2S se optimizan para la velocidad y la naturalidad, no para la corrección o la seguridad. En implementaciones del mundo real, esos compromisos erosionan la confianza rápidamente. Para nuestros agentes de voz, hemos mantenido el pipeline estructurado pero lo hemos reingenierizado para mayor velocidad. Hicimos una gran cantidad de optimizaciones en el modelo y la infraestructura para ofrecer un habla más rápida y natural. El resultado es una mejora del 65% en velocidad mientras mantenemos la auditabilidad y la precisión de las que dependen las empresas. La voz a voz llegará allí eventualmente. Pero hoy, la precisión y la fiabilidad son lo que hace que la IA de voz funcione a escala empresarial.