Smart Turn v2:开源,支持14种语言的本地音频转弯检测。 新的开源、开放数据、开放训练代码的语义VAD模型在@huggingface、@FAL和@pipecat_ai上发布。 - 推理速度提高3倍(在L40上为12毫秒) - 14种语言(比仅支持英语的v1多出13种) - 新的合成数据集`chirp_3_all`,包含约163k音频样本 - 在保留的`human_5_all`测试数据上达到99%的准确率 良好的转弯检测对语音代理至关重要。该模型“理解”语义和音频模式,并减轻语音AI在不必要的转弯延迟与代理在对方未说完之前打断之间的权衡。 @modal_labs和本地训练的训练脚本都在代码库中。我们希望尽可能简化对该模型的贡献或自定义! 这是一个使用默认设置运行smart-turn模型的演示,旨在总体达到400毫秒的转弯检测时间。您也可以调整设置以提高速度。 您可以通过贡献数据、进行架构实验或清理开源数据来帮助我们!继续阅读...
36.92K