Modely převodu řeči na řeč znějí teoreticky úžasně... dokud nebudou nasazeny v podnikovém měřítku. Je snadné pochopit, proč jsou lidé nadšení. Přeskočením samostatných modelů převodu řeči na text a převodu textu na řeč poskytují modely S2S vzrušující ukázky, které zachycují tón, emoce a nuance s minimální latencí. Modely S2S mohou být neuvěřitelným technickým úspěchem, ale stále je obtížné je kontrolovat v produkci a je obtížnější zaručit přesné provádění pracovních postupů. Mnoho hlasových ukázek S2S optimalizuje rychlost a přirozenost, nikoli korektnost nebo bezpečnost. Při nasazení v reálném světě tyto kompromisy rychle narušují důvěru. Pro naše hlasové agenty jsme zachovali strukturovaný kanál, ale přepracovali jsme ho tak, aby byl rychlý. Provedli jsme spoustu optimalizací modelů a infrastruktury, abychom poskytli rychlejší a přirozeněji znějící řeč. Výsledkem je 65% zlepšení rychlosti při zachování auditovatelnosti a přesnosti, na které jsou podniky závislé. Převod řeči na řeč se tam nakonec dostane. Dnes je však přesnost a spolehlivost tím, co umožňuje hlasové umělé inteligenci fungovat v podnikovém měřítku.