Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: mã nguồn mở, phát hiện âm thanh quay tự nhiên trong 14 ngôn ngữ.
Điểm kiểm tra mới của mã nguồn mở, dữ liệu mở, mã huấn luyện mở, mô hình VAD ngữ nghĩa trên @huggingface, @FAL, và @pipecat_ai.
- Tốc độ suy diễn nhanh gấp 3 lần (12ms trên L40)
- 14 ngôn ngữ (13 ngôn ngữ nhiều hơn v1, chỉ có tiếng Anh)
- Bộ dữ liệu tổng hợp mới `chirp_3_all` với ~163k mẫu âm thanh
- Độ chính xác 99% trên dữ liệu kiểm tra `human_5_all` đã giữ lại
Phát hiện lượt tốt là rất quan trọng cho các tác nhân giọng nói. Mô hình này "hiểu" cả các mẫu ngữ nghĩa và âm thanh, và giảm thiểu sự đánh đổi của AI giọng nói giữa độ trễ lượt không mong muốn so với việc tác nhân ngắt lời người khác trước khi họ nói xong.
Các kịch bản huấn luyện cho cả @modal_labs và huấn luyện cục bộ đều có trong kho lưu trữ. Chúng tôi muốn làm cho việc đóng góp hoặc tùy chỉnh mô hình này trở nên dễ dàng nhất có thể!
Đây là một bản demo chạy mô hình smart-turn với các cài đặt mặc định, nhằm đạt tổng thời gian phát hiện lượt khoảng 400ms. Bạn cũng có thể điều chỉnh để nhanh hơn nữa.
Bạn có thể giúp bằng cách đóng góp dữ liệu, thực hiện các thí nghiệm kiến trúc, hoặc làm sạch dữ liệu mã nguồn mở! Tiếp tục đọc ...
36,93K
Hàng đầu
Thứ hạng
Yêu thích