Vă prezentăm Eleven v3 (alpha) - cel mai expresiv model Text to Speech vreodată. Acceptă 70+ limbi, dialoguri cu mai multe difuzoare și etichete audio, cum ar fi [entuziasmat], [oftează], [râde] și [șoaptă]. Acum în alfa public și cu 80% reducere în iunie.
Aceasta este o previzualizare a cercetării. Necesită o inginerie mai promptă decât modelele anterioare - dar generațiile sunt uluitoare. Vom continua să ajustăm pentru a îmbunătăți fiabilitatea și controlul.
Noua arhitectură a Eleven v3 înțelege profund textul - oferind o expresivitate mult mai mare. Și acum puteți ghida generațiile mai direct folosind etichetele audio: - Emoții [trist] [furios] [fericit] - Direcția de livrare [șoaptă] [strigăte] - Reacții non-verbale [râde] [curăță gâtul] [oftează]
Generați dialoguri cu mai multe difuzoare care sună ca o conversație reală. Eleven v3 se ocupă de întreruperi, schimbări de ton și indicii emoționale bazate pe contextul conversațional.
API-ul public pentru Eleven v3 (alpha) va fi disponibil în curând. Pentru acces anticipat, vă rugăm să contactați departamentul de vânzări. Lucrăm la versiunea în timp real a v3. Pentru cazuri de utilizare în timp real și conversaționale, vă recomandăm să rămâneți cu v2.5 Turbo sau Flash deocamdată.
Creat pentru creatori și dezvoltatori care construiesc instrumente media. Dacă lucrați la videoclipuri, cărți audio sau instrumente media - v3 deblochează un nou nivel de expresivitate. Aflați cum să profitați la maximum de ea cu ghidul nostru de solicitare:
Eleven v3 (alpha) este disponibil acum: Are o reducere de 80% în iunie. Încercați-l - și împărtășiți-vă cele mai bune generații cu noi.
1,41M