如何实现音频自动断句

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 627 天前的主题，其中的信息可能已经有所发展或是发生改变。

请问现在的音频自动断句有没有通用的方法？

最近在做听写但是中间停顿的时间太短所以想要自动断句把停顿的时间延长就不用一直手动回退和暂停了

谢谢

[Edit] 识别音频的内容并非必要因为我有原文如果不需要识别音频内容就能断句会更好

自动断句

停顿

方法

13 条回复 • 2024-05-25 16:22:13 +08:00

Nosub

2024 年 5 月 24 日 via iPhone

vad 了解一下。

vivisidea

2024 年 5 月 24 日

1. vad +1 基本思路就是音频先转 pcm ，然后做 vad 切分
2. 偷懒的话可以直接调用 asr 供应商，百度/阿里之类的好像都会有点免费额度，一般返回 text 都带 timestamp 的，按照 timestamp 切就行

subtleworks

2024 年 5 月 24 日

@Nosub 谢谢

subtleworks

2024 年 5 月 24 日

@vivisidea 谢谢第一点有 vad 的库吗

vivisidea

2024 年 5 月 24 日

@subtleworks #4 我知道有 python 的 https://pypi.org/project/webrtcvad-wheels/ ，你找找又没其它语言的，这个是 google 之前开源的 webrtcvad

lts9165

2024 年 5 月 24 日

https://github.com/snakers4/silero-vad
开源的里面这个比较好

AS4694lAS4808

2024 年 5 月 24 日 via Android

可以私有部署阿里的 funasr 带 punc 的模型，有时间戳

subtleworks

2024 年 5 月 24 日

@vivisidea 好的谢谢

subtleworks

2024 年 5 月 24 日

@lts9165 谢谢不过 python 我不会

subtleworks

2024 年 5 月 24 日

@AS4694lAS4808 谢谢私有部署有点麻烦相比之下我还是用商用的免费额度吧

lts9165

2024 年 5 月 24 日

@subtleworks 是 onnx 的模型，多种语言都可以调用

subtleworks

2024 年 5 月 24 日

@lts9165 啊我看见了 web 版本的在这里 https://github.com/ricky0123/vad

1543544726zy

2024 年 5 月 25 日

小米的没人用吗