Apresentamos o Eleven v3 (alfa) - o modelo de Texto para Fala mais expressivo de sempre. Suporta 70+ idiomas, diálogos com vários falantes e tags de áudio como [excitado], [suspiros], [risos] e [sussurros]. Agora em alfa público e 80% de desconto em junho.
Esta é uma prévia da pesquisa. Requer uma engenharia mais rápida do que os modelos anteriores - mas as gerações são de tirar o fôlego. Continuaremos o ajuste fino para melhorar a confiabilidade e o controle.
A nova arquitetura do Eleven v3 compreende profundamente o texto - oferecendo uma expressividade muito maior. E agora você pode guiar gerações mais diretamente usando tags de áudio: - Emoções [triste] [zangadas] [felizes] - Direção de entrega [sussurros] [gritos] - Reações não-verbais [risos] [limpa garganta] [suspiros]
Gere diálogos com vários alto-falantes que soam como uma conversa real. Eleven v3 lida com interrupções, mudanças de tom e pistas emocionais com base no contexto da conversa.
A API pública para Eleven v3 (alpha) estará disponível em breve. Para acesso antecipado, entre em contato com o departamento de vendas. Estamos trabalhando na versão em tempo real da v3. Para casos de uso em tempo real e conversacionais, recomendamos ficar com v2.5 Turbo ou Flash por enquanto.
Criado para criadores e desenvolvedores que criam ferramentas de mídia. Se você estiver trabalhando em vídeos, audiolivros ou ferramentas de mídia, a v3 desbloqueia um novo nível de expressividade. Saiba como tirar o máximo proveito disso com nosso guia de instruções:
Eleven v3 (alpha) já está disponível: Tem 80% de desconto durante o mês de junho. Experimente - e partilhe connosco as suas melhores gerações.
1,41M