V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Leon6868
V2EX  ›  问与答

说话人分割用什么模型比较好?

  •  
  •   Leon6868 · 17 天前 · 750 次点击

    小规模会议场景(小于 10 人)下的说话人分割,希望能流式处理,请问什么模型延迟和准确性比较好呢?

    提前感谢大佬回复!

    (目前试过 funasr 的 cam++,分割效果不太好)

    10 条回复    2024-05-23 20:29:26 +08:00
    q0000001
        2
    q0000001  
       17 天前 via Android
    多嘴问问,funasr 可以流式识别说话人?
    BMPixel
        3
    BMPixel  
       17 天前
    我之前自己试了几个,WhisperX 效果是最好的,不过好像不能流式。
    Leon6868
        4
    Leon6868  
    OP
       17 天前
    @q0000001 #2 readme 中有 cam++
    Leon6868
        5
    Leon6868  
    OP
       17 天前
    @czfy #1 好文档,不过没怎么提到说话人分割
    q0000001
        6
    q0000001  
       16 天前
    @Leon6868 我也看到有,但是基本上都是非实时语音识别才有加载 cam++,看到 issue 里面说流式没有,所以一直没看到。
    能再问问你是用 paraformer-zh-streaming 这个,再加载 cam++吗?
    roding
        7
    roding  
       16 天前
    为什么要分割人😱
    Leon6868
        8
    Leon6868  
    OP
       16 天前
    @q0000001 #6 我描述得确实不太准确,当时是采用滑窗方式分割说话人的,类似 3s 历史+2s(未处理)这样(迫真流式)。我也没找到近期实时说话人识别/分割的工作,如果见到类似的工作欢迎多交流🙏
    q0000001
        9
    q0000001  
       16 天前 via iPhone
    @Leon6868 明白明白。
    没问题,最近都在搞这个,突然看到眼前一亮。哈哈。
    大概原理懂了。嗯嗯,多交流。
    Leon6868
        10
    Leon6868  
    OP
       18 小时 36 分钟前
    @q0000001 #9 最近尝试了一个非常好的项目,sherpa onnx ,在 asr 和 说话人分割/识别 方面基本能满足我的需求,你可以试一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5058 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 07:05 · PVG 15:05 · LAX 00:05 · JFK 03:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.