基于一段音频识别有多少个人在说话

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因，有没有大佬能够解答一下。

音频识别

人声分离

人数识别

4 条回复 • 2025-10-14 10:36:37 +08:00