一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Smart Turn v2：开源，支持14种语言的本地音频转弯检测。新的开源、开放数据、开放训练代码的语义VAD模型在@huggingface、@FAL和@pipecat_ai上发布。 - 推理速度提高3倍（在L40上为12毫秒） - 14种语言（比仅支持英语的v1多出13种） - 新的合成数据集`chirp_3_all`，包含约163k音频样本 - 在保留的`human_5_all`测试数据上达到99%的准确率良好的转弯检测对语音代理至关重要。该模型“理解”语义和音频模式，并减轻语音AI在不必要的转弯延迟与代理在对方未说完之前打断之间的权衡。 @modal_labs和本地训练的训练脚本都在代码库中。我们希望尽可能简化对该模型的贡献或自定义！这是一个使用默认设置运行smart-turn模型的演示，旨在总体达到400毫秒的转弯检测时间。您也可以调整设置以提高速度。您可以通过贡献数据、进行架构实验或清理开源数据来帮助我们！继续阅读...

36.92K