Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giới thiệu các mô hình nhận diện giọng nói tốt nhất (và mở) trên thế giới!

Cả hai mô hình Voxtral 3B và Voxtral 24B vượt ra ngoài việc chuyển đổi văn bản với các khả năng bao gồm:
· Ngữ cảnh dài: với độ dài ngữ cảnh 32k token, Voxtral xử lý âm thanh lên đến 30 phút cho việc chuyển đổi văn bản, hoặc 40 phút cho việc hiểu
· Q&A và tóm tắt tích hợp sẵn: Hỗ trợ đặt câu hỏi trực tiếp về nội dung âm thanh hoặc tạo tóm tắt có cấu trúc, mà không cần phải kết nối các mô hình ASR và ngôn ngữ riêng biệt
· Đa ngôn ngữ bản địa: Phát hiện ngôn ngữ tự động và hiệu suất hàng đầu trong các ngôn ngữ được sử dụng rộng rãi nhất trên thế giới (Tiếng Anh, Tiếng Tây Ban Nha, Tiếng Pháp, Tiếng Bồ Đào Nha, Tiếng Hindi, Tiếng Đức, Tiếng Hà Lan, Tiếng Ý, để kể tên một vài), giúp các đội phục vụ khán giả toàn cầu với một hệ thống duy nhất
· Gọi hàm trực tiếp từ giọng nói: Cho phép kích hoạt trực tiếp các hàm backend, quy trình làm việc, hoặc các cuộc gọi API dựa trên ý định của người dùng được nói ra, biến các tương tác bằng giọng nói thành các lệnh hệ thống có thể thực hiện mà không cần các bước phân tích trung gian.
· Có khả năng cao về văn bản: Giữ lại khả năng hiểu văn bản của mô hình ngôn ngữ nền tảng, Mistral Small 3.1
486,95K
Hàng đầu
Thứ hạng
Yêu thích