V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
coderwei
V2EX  ›  问与答

基于一段音频识别有多少个人在说话

  •  
  •   coderwei · 2 天前 · 836 次点击
    前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
    目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因,有没有大佬能够解答一下。
    4 条回复    2025-10-14 10:36:37 +08:00
    supuwoerc
        1
    supuwoerc  
       2 天前
    whisper 好像可以做到
    Seanfuck
        2
    Seanfuck  
       2 天前
    识别的人数永远都是 2 人,大概是模型就只支持区分 2 人。
    ttgo
        3
    ttgo  
       2 天前
    简单说这是一个分类问题。我记得哪个大佬在他的 ai 课里炫技,用一行 matlab 代码就实现了用 svm 来区分多人语音。
    barantt01
        4
    barantt01  
       2 天前
    语音分割+向量
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   884 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:23 · PVG 05:23 · LAX 14:23 · JFK 17:23
    ♥ Do have faith in what you're doing.