SileroVAD

流式语音端点识别

安装依赖

sudo apt install libsndfile1

pip install -r requirements.txt

Demo

CLI

python main.py --input demo.wav --output_dir output --model silero_vad.onnx

被分段的语音后保存在output目录中

Gradio

pip install gradio

python gradio_app.py

gradio界面

在项目中使用

  1. 复制StreamVAD.py 到项目中
  2. from StreamVAD import StreamVAD
  3. 初始化
vad = StreamVAD(args.backend, 
                    sensitivity=0.5,
                    silence_ms=200)

运行

for result in vad.run(audio, vad.model.sr):
    if result:
        print(result)

result的格式为:

{
    'start_ts': 语音开始的时间
    'end_ts': 语音结束的时间
    'audio': 语音数据
}

时间戳的格式可通过StreamVAD.datetime_format设置

Downloads last month
31
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including AXERA-TECH/SileroVAD