Wir stellen vor: Eleven v3 (alpha) - das ausdrucksstärkste Text-to-Speech-Modell aller Zeiten. Unterstützt 70+ Sprachen, Dialoge mit mehreren Sprechern und Audio-Tags wie [aufgeregt], [seufzt], [lachen] und [flüstern]. Jetzt in der öffentlichen Alpha-Phase und 80% Rabatt im Juni.
Dies ist eine Vorschau auf die Forschung. Er erfordert eine schnellere Entwicklung als die Vorgängermodelle - aber die Generationen sind atemberaubend. Wir werden die Feinabstimmung fortsetzen, um die Zuverlässigkeit und Kontrolle zu verbessern.
Die neue Architektur von Eleven v3 versteht Text tief und bietet eine viel größere Ausdruckskraft. Und jetzt können Sie Generationen mithilfe von Audio-Tags direkter führen: - Emotionen [traurig] [wütend] [glücklich] - Lieferrichtung [flüstert] [ruft] - Nonverbale Reaktionen [lacht] [räuspert sich] [seufzt]
Generieren Sie Dialoge mit mehreren Sprechern, die sich wie ein echtes Gespräch anhören. Eleven v3 behandelt Unterbrechungen, Tonverschiebungen und emotionale Hinweise basierend auf dem Gesprächskontext.
Die öffentliche API für Eleven v3 (Alpha) ist in Kürze verfügbar. Für einen frühen Zugang wenden Sie sich bitte an den Vertrieb. Wir arbeiten an der Echtzeitversion von v3. Für Echtzeit- und Konversations-Anwendungsfälle empfehlen wir, vorerst bei v2.5 Turbo oder Flash zu bleiben.
Entwickelt für Kreative und Entwickler, die Medientools erstellen. Wenn du an Videos, Hörbüchern oder Medientools arbeitest, ermöglicht v3 ein neues Maß an Ausdruckskraft. Erfahren Sie, wie Sie mit unserem Leitfaden für Eingabeaufforderungen das Beste daraus machen können:
Eleven v3 (alpha) ist ab sofort verfügbar: Im Juni gibt es 80 % Rabatt. Probieren Sie es aus – und teilen Sie Ihre besten Generationen mit uns.
1,41M