語音對語音模型在理論上聽起來很棒……直到它們在企業規模上部署。 人們為什麼感到興奮是顯而易見的。通過跳過單獨的語音轉文字和文字轉語音模型,S2S模型提供了令人興奮的演示,能夠捕捉語調、情感和細微差別,且延遲極小。 S2S模型可能是一項令人難以置信的技術成就,但在生產環境中仍然難以控制,並且更難保證工作流程的精確執行。 許多S2S語音演示優化了速度和自然性,而不是正確性或安全性。在現實世界的部署中,這些權衡會迅速侵蝕信任。 對於我們的語音代理,我們保留了結構化的管道,但重新設計以提高速度。我們進行了大量模型和基礎設施的優化,以提供更快、更自然的語音。結果是速度提高了65%,同時保持了企業所依賴的可審計性和精確性。 語音對語音最終會達到那個水平。但今天,精確性和可靠性是使語音AI在企業規模上運作的關鍵。