热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Smart Turn v2:开源,支持14种语言的本地音频转弯检测。
新的开源、开放数据、开放训练代码的语义VAD模型在@huggingface、@FAL和@pipecat_ai上发布。
- 推理速度提高3倍(在L40上为12毫秒)
- 14种语言(比仅支持英语的v1多出13种)
- 新的合成数据集`chirp_3_all`,包含约163k音频样本
- 在保留的`human_5_all`测试数据上达到99%的准确率
良好的转弯检测对语音代理至关重要。该模型“理解”语义和音频模式,并减轻语音AI在不必要的转弯延迟与代理在对方未说完之前打断之间的权衡。
@modal_labs和本地训练的训练脚本都在代码库中。我们希望尽可能简化对该模型的贡献或自定义!
这是一个使用默认设置运行smart-turn模型的演示,旨在总体达到400毫秒的转弯检测时间。您也可以调整设置以提高速度。
您可以通过贡献数据、进行架构实验或清理开源数据来帮助我们!继续阅读...
36.92K
热门
排行
收藏