Vi presenterar Eleven v3 (alpha) – den mest uttrycksfulla text-till-tal-modellen någonsin. Stöd för 70+ språk, dialog med flera högtalare och ljudtaggar som [upphetsad], [suckar], [skrattar] och [viskar]. Nu i offentlig alfa och 80 % rabatt i juni.
Det här är en förhandsgranskning av forskningen. Den kräver mer snabb ingenjörskonst än tidigare modeller - men generationerna är hisnande. Vi kommer att fortsätta finjustera för att förbättra tillförlitligheten och kontrollen.
Den nya arkitekturen i Eleven v3 förstår text på djupet, vilket ger mycket större uttrycksfullhet. Och nu kan du vägleda generationer mer direkt med hjälp av ljudtaggar: - Känslor [ledsen] [arg] [lyckligt] - Leveransriktning [viskar] [ropar] - Icke-verbala reaktioner [skrattar] [harklar sig] [suckar]
Skapa dialog med flera talare som låter som en riktig konversation. Eleven v3 hanterar avbrott, skiftningar i ton och känslomässiga signaler baserat på samtalskontext.
Offentligt API för Eleven v3 (alpha) kommer snart. För tidig åtkomst, vänligen kontakta säljavdelningen. Vi arbetar med realtidsversionen av v3. För användningsfall i realtid och konversation rekommenderar vi att du håller dig till v2.5 Turbo eller Flash för tillfället.
Byggt för kreatörer och utvecklare som bygger medieverktyg. Om du arbetar med videor, ljudböcker eller medieverktyg - v3 låser upp en ny nivå av uttrycksfullhet. Lär dig hur du får ut det mesta av det med vår uppmaningsguide:
Eleven v3 (alfa) är tillgänglig nu: Det är 80% rabatt under juni. Prova dig fram – och dela med dig av dina bästa generationer.
1,41M