Los modelos de voz a voz suenan increíbles en teoría ... hasta que se implementan a escala empresarial. Es fácil ver por qué la gente está emocionada. Al omitir los modelos separados de voz a texto y texto a voz, los modelos S2S ofrecen demostraciones emocionantes que capturan el tono, la emoción y los matices con una latencia mínima. Los modelos S2S pueden ser un logro técnico increíble, pero siguen siendo difíciles de controlar en producción y más difíciles de garantizar que los flujos de trabajo se ejecuten con precisión. Muchas de las demostraciones de voz de S2S se optimizan para la velocidad y la naturalidad, no para la corrección o la seguridad. En implementaciones del mundo real, esas compensaciones erosionan la confianza rápidamente. Para nuestros agentes de voz, hemos mantenido la canalización estructurada, pero la hemos rediseñado para que sea rápida. Hicimos un montón de optimizaciones de modelos e infraestructura para ofrecer un habla más rápida y con un sonido más natural. El resultado es una mejora del 65% en la velocidad mientras se mantiene la auditabilidad y la precisión de las que dependen las empresas. La voz a voz llegará allí eventualmente. Pero hoy en día, la precisión y la confiabilidad son las que hacen que la IA de voz funcione a escala empresarial.