语音转文本的开源模型，各位有接触过吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 133 天前的主题，其中的信息可能已经有所发展或是发生改变。

想找一个开源的模型，大厂的模型有推荐的吗？
目前有了解 OpenAI Whisper
想满足：
1.能支持 GPU 加速
2.准确率高（降噪啥的）支持中英混合，主要是中国口音的英语（没有歧视的意思，纯业务需求）
3. 速度尽可能的快
场景是离线的。

whisper

GPU

准确率

14 条回复 • 2025-07-18 13:28:39 +08:00

liu731

PRO

133 天前

https://github.com/fishaudio/fish-speech

python35

133 天前

就是做这个相关的，比较流行的是 kaldi2 、funasr 、wenet 、sensevoice ，都提供了很多预训练的模型，在 cuda 上都能跑，
其中 sensevoice 的 readme 写了 Multilingual Speech Recognition: Trained with over 400,000 hours of data, supporting more than 50 languages, the recognition performance surpasses that of the Whisper model.
他们的效果超过 Whisper

dodoa

133 天前

@python35 #2 感谢分享，我们也有这个需求，最近也在研究相关的技术。

Liu6

133 天前

感谢各位分享！

Liu6

133 天前

@python35 #2 老哥，您感觉这几个哪个符合一点，有没有心中排行。

neoblackcap

133 天前

现有的 LLM 的语音识别效果应该都挺好的，但是实际操作可能得是信号处理方面下功夫。过滤背景音，音乐啥的。然后再是语音识别。

yuedashi

132 天前 via Android

@liu731 你这是 TTS ，不符合楼主的需求哦

python35

132 天前

@Liu6 #5 个人更喜欢这个 sensevoice ，kadi2 ，背靠大公司，相对于背靠开源社区的迭代速度和训练集更有优势，kaldi2 的话生态更好从训练到部署一条龙

Liu6

132 天前

@python35 #8 好的，感谢，早上刚好在看 sensevoice ，正在研究参数的含义。

newaccount

132 天前

用过 whisper
把吉他课转录成文本
不知道他用了哪儿的训练语料
对话过程中会有音乐，导致它能把对话成识别成周华健
我特么要是能找周华健教吉他我特么都该表演个倒立洗头

newaccount

132 天前

@newaccount #10 哦，还有
这识别出来的文本没有标点符号
最后又丢给 qwen 总结润色，勉强能看

Liu6

131 天前

@python35 #2
@newaccount #11 老哥们，有知道哪些能支持分角色和显示时间吗？

newaccount

131 天前

@Liu6 #12 时间没有显示，角色自动识别的，当时随便用用主打一个省心，懒得手动整理

Liu6

131 天前

@newaccount #13 paraformer-zh 这个模型可以支持角色和时间，就是速度我测下来，比 sensevoice 慢了 3 倍左右，准确度目前还没对比