Các mô hình chuyển đổi giọng nói thành giọng nói nghe có vẻ tuyệt vời trong lý thuyết… cho đến khi chúng được triển khai ở quy mô doanh nghiệp. Thật dễ dàng để thấy tại sao mọi người lại hào hứng. Bằng cách bỏ qua các mô hình chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói riêng biệt, các mô hình S2S mang đến những bản demo thú vị, nắm bắt được âm điệu, cảm xúc và sắc thái với độ trễ tối thiểu. Các mô hình S2S có thể là một thành tựu kỹ thuật đáng kinh ngạc, nhưng chúng vẫn khó kiểm soát trong sản xuất và khó đảm bảo rằng các quy trình làm việc được thực hiện chính xác. Nhiều bản demo giọng nói S2S tối ưu hóa cho tốc độ và tính tự nhiên, chứ không phải cho độ chính xác hay an toàn. Trong các triển khai thực tế, những sự đánh đổi đó làm giảm nhanh chóng sự tin tưởng. Đối với các đại lý giọng nói của chúng tôi, chúng tôi đã giữ lại quy trình có cấu trúc nhưng tái thiết kế nó để tăng tốc độ. Chúng tôi đã thực hiện rất nhiều tối ưu hóa mô hình và hạ tầng để mang lại giọng nói tự nhiên hơn và nhanh hơn. Kết quả là cải thiện 65% về tốc độ trong khi vẫn duy trì khả năng kiểm toán và độ chính xác mà các doanh nghiệp phụ thuộc vào. Chuyển đổi giọng nói thành giọng nói sẽ đạt được điều đó vào một ngày nào đó. Nhưng hôm nay, độ chính xác và độ tin cậy là những gì làm cho AI giọng nói hoạt động ở quy mô doanh nghiệp.