V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Liu6
V2EX  ›  程序员

语音转文本的开源模型,各位有接触过吗?

  •  
  •   Liu6 · 48 天前 · 1621 次点击
    这是一个创建于 48 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想找一个开源的模型,大厂的模型有推荐的吗?
    目前有了解 OpenAI Whisper
    想满足:
    1.能支持 GPU 加速
    2.准确率高(降噪啥的)支持中英混合,主要是中国口音的英语(没有歧视的意思, 纯业务需求)
    3. 速度尽可能的快
    场景是离线的。

    14 条回复    2025-07-18 13:28:39 +08:00
    liu731
        1
    liu731  
    PRO
       48 天前
    python35
        2
    python35  
       48 天前   ❤️ 3
    就是做这个相关的,比较流行的是 kaldi2 、funasr 、wenet 、sensevoice ,都提供了很多预训练的模型,在 cuda 上都能跑,
    其中 sensevoice 的 readme 写了 Multilingual Speech Recognition: Trained with over 400,000 hours of data, supporting more than 50 languages, the recognition performance surpasses that of the Whisper model.
    他们的效果超过 Whisper
    dodoa
        3
    dodoa  
       48 天前
    @python35 #2 感谢分享, 我们也有这个需求,最近也在研究相关的技术。
    Liu6
        4
    Liu6  
    OP
       48 天前
    感谢各位分享!
    Liu6
        5
    Liu6  
    OP
       48 天前
    @python35 #2 老哥, 您感觉这几个哪个符合一点, 有没有心中排行。
    neoblackcap
        6
    neoblackcap  
       48 天前
    现有的 LLM 的语音识别效果应该都挺好的,但是实际操作可能得是信号处理方面下功夫。过滤背景音,音乐啥的。然后再是语音识别。
    yuedashi
        7
    yuedashi  
       47 天前 via Android
    @liu731 你这是 TTS ,不符合楼主的需求哦
    python35
        8
    python35  
       47 天前
    @Liu6 #5 个人更喜欢这个 sensevoice ,kadi2 ,背靠大公司,相对于背靠开源社区的迭代速度和训练集更有优势,kaldi2 的话生态更好从训练到部署一条龙
    Liu6
        9
    Liu6  
    OP
       47 天前
    @python35 #8 好的, 感谢, 早上刚好在看 sensevoice , 正在研究参数的含义。
    newaccount
        10
    newaccount  
       47 天前
    用过 whisper
    把吉他课转录成文本
    不知道他用了哪儿的训练语料
    对话过程中会有音乐,导致它能把对话成识别成周华健
    我特么要是能找周华健教吉他我特么都该表演个倒立洗头
    newaccount
        11
    newaccount  
       47 天前
    @newaccount #10 哦,还有
    这识别出来的文本没有标点符号
    最后又丢给 qwen 总结润色,勉强能看
    Liu6
        12
    Liu6  
    OP
       46 天前
    @python35 #2
    @newaccount #11 老哥们,有知道哪些能支持 分角色和显示时间吗?
    newaccount
        13
    newaccount  
       46 天前
    @Liu6 #12 时间没有显示,角色自动识别的,当时随便用用主打一个省心,懒得手动整理
    Liu6
        14
    Liu6  
    OP
       46 天前
    @newaccount #13 paraformer-zh 这个模型可以支持 角色 和时间, 就是速度我测下来, 比 sensevoice 慢了 3 倍左右, 准确度目前还没对比
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3007 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:46 · PVG 20:46 · LAX 05:46 · JFK 08:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.