做了一个结合多种 AI 模型的一站式字幕平台，同时也提供 API

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 430 天前的主题，其中的信息可能已经有所发展或是发生改变。

分享一个我们正在做的产品--快转字幕 https://www.kzzimu.com ，目标是海外市场，先在国内试试水，de 下 bug 。

下面我跟大家分享技术、经验和资源哈。

一句话介绍

是基于 Whisper 魔改版，实现音视频转字幕，GPT-4 翻译加润色，识别说话人，字幕智能重排的一站式音视频平台。

V 友们肯定会说，XX 、XXX 和 XXXX 不都有这些东西？

我们的优势是：

无须显卡，云端速度非常快。
普通用户可以免费使用。
傻瓜式，用户不需要有任何技术，不需要去搞什么 Key 。
解决很多 AI 模型的输出不稳定问题，保证结果的稳定性。
有一个体验非常好的字幕编辑器和文件管理系统。

对我们的产品的技术实现感兴趣的话，可以留言，我会分享一些技术细节。比如，我们的说话人识别，用的是 NVIDIA 的 Nemo 。

API

另外，V 友如果想要在自己的产品上快速实现我们现在的功能，我们也做了 API 可以对接，比如我们支持 2 小时以内，100M 的不分段的音频识别。

一些 todo

提取音频的纯人声、纯背景（已经做好，测试上线）
海外版（架构一开始就是面向全球，现在正在准备外文资料和服务器架构）
下载合并了字幕的视频文件。（已经设计好）
根据字幕的剪辑功能。（新建文件夹）

字幕

API

识别

文件

21 条回复 • 2024-01-05 18:29:45 +08:00

webjourneyer

2023-12-15 15:36:26 +08:00

哇，我们正好也在开始做这块的，希望楼主能分享更多细节

terryops

2023-12-15 15:41:56 +08:00

@webjourneyer 多搞搞差异化吧。你想知道哪部分的细节？

webjourneyer

2023-12-15 16:02:34 +08:00

@terryops 目前我们基于 whisper 也搞了一个字幕提取的(主要是参考开源的应用），但我就一直没办法像楼主你那样搞成网站的形式来调用进行调用，你们边播放边把字幕实时搞进去是怎么处理的呀

Cellinlab

2023-12-15 16:10:52 +08:00

加个音色识别吧，这样能吊打市面上 99%字幕识别工具了，给字幕加上角色

terryops

2023-12-15 16:15:59 +08:00

@Cellinlab 我们可以识别说话人，区分 1 、2 、3 、4 、5 、6 这样，但是具体这个人是谁，需要音色的向量保存下来，然后人工标注。
目前我们的产品主要定位是视频创作者，用户可以手动标注说话人的名字，目前来看是够用的。

terryops

2023-12-15 16:16:40 +08:00

@webjourneyer 这个很简单，是浏览器自带的功能，用那个 WebVTT 的格式，就能挂载字幕了。

lidedongsn

2023-12-15 16:22:13 +08:00

这个特色是转字幕，有没有想过加强剪辑的能力

lidedongsn

2023-12-15 16:24:11 +08:00

还有就是基于识别字幕的文本内容结合当前的大模型能力，生成视频摘要还有智能剪辑

Cellinlab

2023-12-15 16:24:55 +08:00

@terryops 挺好，我觉得你可以和他们谈下合作 https://www.33subs.com/contact

webjourneyer

2023-12-15 16:28:08 +08:00

@terryops 感谢，我研究下

terryops

2023-12-15 16:30:56 +08:00

@Cellinlab 他们有个雷同的产品呀，这是竞争关系哈哈哈

terryops

2023-12-15 16:31:44 +08:00

@lidedongsn 谢谢，这块我们研究下能做到什么个程度。

Andim

2023-12-15 17:00:00 +08:00

试了下中文比原生的 Whisper 还是要差点，原生 Whisper 能识别中文 80%

https://www.kzzimu.com/result/94f99bd0e6f59046222957b506ded023

https://gcdnb.pbrd.co/images/wIzlPpehs9tW.png?o=1

只识别出四句
音频是李千那的延禧攻略

deiphi

2023-12-15 17:14:31 +08:00

试了一下，跟 Whisper large v3 出来的字幕一模一样。

terryops

2023-12-15 21:02:06 +08:00

@deiphi 我们是基于 Large-V2 ，V3 有很多问题，测试后弃用了。
我们考虑到了很多边界的情况的处理，一个视频是测不出来质量差别滴。

terryops

2023-12-15 21:09:20 +08:00

@Andim 可能是你的文件有问题，我把你发的链接直接下载视频下来，拖进去转录，能出全部歌词。
[temp-Imagej-U4z-LX.jpg]( https://postimg.cc/JydH3tZR)

terryops

2023-12-15 21:10:29 +08:00

Andim

2023-12-15 21:49:16 +08:00

@terryops
https://mega.nz/file/64VjFSRY#wHOazbwhbsSj7BJ2LnjTZco0Wx5SUzEdqlEH8Is0_DM
这个音频我用 Whisper 识别是没问题的，不过 Whisper 对中文的错误率还是很高

terryops

2023-12-15 23:23:45 +08:00

@Andim 你有没有发现你出现了李宗盛作词作曲这种幻听？然后 3 分 17 秒那句完全就错的。
我们研究了很多这种问题，有很多解决方案，比如然后你那个文件有点问题，我们有个功能，去杂音。
https://imgur.com/a/acOVSYO
勾选之后就能识别了。
https://imgur.com/a/AMVID1N
另外 Whisper 对音质要求很高的，音质差，识别率就差，断句也会差。你那个 8mb 的 wav 文件，码率应该相当低。
但是可以做一些音频处理，移除杂音。

wswlaz

2024-01-04 13:13:12 +08:00

获取视频信息失败,请检查 URL 是否有效

terryops

2024-01-05 18:29:45 +08:00

@wswlaz 在线视频？哪个平台的