V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Simon95
V2EX  ›  分享创造

做了一个自然语音生成的 AI 模型,大家提点意见

  •  2
     
  •   Simon95 · 177 天前 · 3204 次点击
    这是一个创建于 177 天前的主题,其中的信息可能已经有所发展或是发生改变。
    自己做了一个语音生成的网站,www.zideai.com
    不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
    语音模型是自己写的,自己训练的
    和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
    网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
    用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
    优势:
    1. 接近于真人的自然发声,包括停顿,韵律等。
    2. 可以用一段 3s 的语音克隆声线,视频里有展示。
    3. 全中文数据训练的,所以说话没有老外的感觉。
    4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
    缺点:
    1. 生成可能还不太稳定,声线容易跑偏。
    2. 很耗 GPU ,是传统语音生成的很多倍。
    后续:
    训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。
    第 1 条附言  ·  176 天前
    因为自然语音和之前传统 tts 有较大使用上区别,很多参数是不能直接设定的,比如音调,断句,停顿等。只能类似 GPT 一样给 Prompt ,输入的句子要规范一下,空格,逗号这些非文字符号模型会认为是提示要停顿。
    系统还在测试阶段,使用习惯肯定也不一样,大家有问题可以提出来,我稍后整理下做个教程。
    51 条回复    2024-03-14 15:24:27 +08:00
    LDa
        1
    LDa  
       177 天前
    天 这个太自然了!
    passerby233
        2
    passerby233  
       177 天前
    棒!
    maocat
        3
    maocat  
       177 天前 via iPhone
    虽然是痴心妄想,但我还是想问,开源吗/dog
    Simon95
        4
    Simon95  
    OP
       177 天前
    @maocat 我也想开,但是和大佬们的没法比,主要是数据比较多而已。。。
    scp3041
        5
    scp3041  
       177 天前
    训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧
    Simon95
        6
    Simon95  
    OP
       177 天前
    @scp3041 买不起,百万起的东西。
    qweruiop
        7
    qweruiop  
       177 天前
    op 开源下呗,学习学习。。。
    xming
        8
    xming  
       177 天前
    英语能行吗
    jifengg
        9
    jifengg  
       177 天前
    中文效果很好,继续关注
    wpyfawkes
        10
    wpyfawkes  
       177 天前
    发音挺自然,但是断句和停顿不是那么自然.😂
    期待楼主更加牛 X 的版本.
    shadio
        11
    shadio  
       177 天前   ❤️ 1
    语音接近真人,但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗,方便用户后续微调。
    linshuizhaoying
        12
    linshuizhaoying  
       177 天前
    就这个语气一直都是很低沉的。。。其他表现还可以的
    Metre
        13
    Metre  
       177 天前
    前几天看了 heygen ,看完之后我就不想让我小孩学习外语了。。。
    isSamle
        14
    isSamle  
       177 天前
    这很容易被利用吧,骚扰电话+获取录音+AI 生成+各种非法使用
    zoharSoul
        15
    zoharSoul  
       177 天前
    可以当成 tts 用吗?
    asrpub
        16
    asrpub  
       177 天前 via Android
    角色用的是固定的 prompt 吧?
    zagfai
        17
    zagfai  
       177 天前
    说不来粤语 嘿嘿
    Simon95
        18
    Simon95  
    OP
       177 天前
    @shadio 估计支持 ssml 难度比较大,因为有上下文理解能力,就是会根据文本信息和声音信息自己生成情绪,语气等
    Simon95
        19
    Simon95  
    OP
       177 天前
    @zoharSoul 就是 tts ,就是应用场景估计和传统的有区别,需要好好想想
    Simon95
        20
    Simon95  
    OP
       177 天前
    @zagfai 小众方言难做啊,我就是说粤语的,配音没听出来一口广普味?
    zoharSoul
        21
    zoharSoul  
       177 天前
    @Simon95 #19 感觉用作听书不错啊, 就是不知道速度和价格怎么样
    Simon95
        22
    Simon95  
    OP
       177 天前
    @zoharSoul 速度实时没问题,最后价格一个小时语音估计要两块钱左右,现在是免费的。
    zoharSoul
        23
    zoharSoul  
       177 天前
    @Simon95 #22 明白了, 到时候说不定有机会用用 hah
    starcode
        24
    starcode  
       177 天前
    可以合作合作,我有一个录音的 APP ,后续需要录音转文字 API 和文字转录音 API 等。
    yanyao233
        25
    yanyao233  
       177 天前
    帅啊!
    bihui
        26
    bihui  
       177 天前
    您用了别人的开源技术吗?
    antkites
        27
    antkites  
       177 天前
    @Simon95 大佬,太厉害了,不过还是多问一句能开源吗,学习学习,嘿嘿
    Simon95
        28
    Simon95  
    OP
       177 天前
    @antkites 等后面安排吧,目前生成的还不太稳定。
    OneMan
        29
    OneMan  
       177 天前
    @Simon95 有联系方式吗,合作聊聊
    Simon95
        30
    Simon95  
    OP
       177 天前
    @OneMan 微信 nonamehorse
    jianchang512
        31
    jianchang512  
       177 天前
    这个不错,正找相关的开源项目呢,没找到合适的。
    facebook 的 https://github.com/facebookresearch/seamless_communication
    对中文效果似乎很不好。


    用于影视翻译配音领域,前景大大的
    Simon95
        32
    Simon95  
    OP
       177 天前
    @jianchang512 多语言怎么讲呢,说实话我不太感冒,感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。
    youthfire
        33
    youthfire  
       177 天前 via iPhone
    之前用过一个国外开源的, 缺点就是中文语音有国外腔。实际上相比 TTS ,这类虽然更自然,离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果,应该早晚会作为 whisper 的一部分提供 api 收费服务。
    unii23i
        34
    unii23i  
       176 天前
    不错啊,之前用国外的生成语音说话很别扭,这个真多了
    siknet
        35
    siknet  
       176 天前
    断字断句好像有点问题

    你试试这句

    新西兰比澳大利亚通过率高,有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间
    Simon95
        36
    Simon95  
    OP
       176 天前
    @siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。
    OneMan
        37
    OneMan  
       176 天前
    支持英语吗
    Sylarlong
        38
    Sylarlong  
       176 天前
    这个太厉害了,点赞
    shuzhi123
        39
    shuzhi123  
       176 天前
    这个太厉害了,点赞
    sanebow
        40
    sanebow  
       175 天前 via iPhone
    纯外行,请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别,有什么代表性 paper 可以阅读了解吗
    Simon95
        41
    Simon95  
    OP
       175 天前   ❤️ 1
    @sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
    1044523901
        42
    1044523901  
       175 天前
    效果不错,干倒语音生成 TTS 厂商。
    fenglingyu
        43
    fenglingyu  
       174 天前
    很厉害
    DanielNg23
        44
    DanielNg23  
       174 天前
    太牛了!要不要来我们这边打一下黑客马拉松😊,线上/线下均可参加😄,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
    blackboar
        45
    blackboar  
       171 天前
    感觉可以做电诈供应商啊哈哈
    zoharSoul
        46
    zoharSoul  
       122 天前
    @Simon95 #22 并发怎么样啊 大佬 有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少
    Miller5991
        47
    Miller5991  
       113 天前
    试了一下感觉还不错,值得鼓励
    Miller5991
        48
    Miller5991  
       113 天前
    op 还会持续迭代吗?感觉还是有点不太自然,不过换气很流畅
    irrwood
        49
    irrwood  
       106 天前
    感觉很棒啊!
    Simon95
        50
    Simon95  
    OP
       101 天前
    @Miller5991 已经更新了,有兴趣可以试试
    xljiulong2031
        51
    xljiulong2031  
       35 天前
    楼主现在用不了了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   943 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 21:07 · PVG 05:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.