V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cairnechen
V2EX  ›  分享发现

现在的语音合成已经到这种水平了吗? Azure TTS 合成的 Voice 也太自然了

  •  5
     
  •   cairnechen · 2021-12-10 09:59:50 +08:00 · 13691 次点击
    这是一个创建于 840 天前的主题,其中的信息可能已经有所发展或是发生改变。

    语言选简体中文 Yunxi 这个发音人几乎要以假乱真了,害怕.jpg

    https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/#features

    可以对比下讯飞的:

    https://www.xfyun.cn/services/online_tts

    107 条回复    2022-05-07 20:44:51 +08:00
    1  2  
    ruib
        1
    ruib  
       2021-12-10 10:13:50 +08:00
    头一次注意到,连换气声都有
    set01
        2
    set01  
       2021-12-10 10:20:04 +08:00
    Azure 都英文有种 bbc 听力的环节
    tigerstudent
        3
    tigerstudent  
       2021-12-10 10:39:15 +08:00
    有点恐怖
    mikuazusa
        4
    mikuazusa  
       2021-12-10 10:41:46 +08:00
    这个 TTS 如果去参加普通话考试,估计能秒绝大多数人了
    Thinginitself
        5
    Thinginitself  
       2021-12-10 10:42:35 +08:00
    TTS 确实现在越做越好了,感觉以后不仅像真人而且可以模仿特定的人,想想还是很恐怖的,至少在诈骗上就更容易了、
    Tink
        6
    Tink  
       2021-12-10 10:43:29 +08:00
    讯飞如果选阅读场景,感觉也还可以
    aeron
        7
    aeron  
       2021-12-10 10:48:14 +08:00
    @Thinginitself 现在已经有了,提供几秒录音就能模仿一个人说话,也已经用于诈骗了
    chairuosen
        8
    chairuosen  
       2021-12-10 10:49:06 +08:00
    虚拟 UP+TTS+AI 对话,感觉跟真人一样了
    soon
        9
    soon  
       2021-12-10 10:51:51 +08:00
    太强了,换上新闻稿,感觉跟播音员一样了
    heylogo
        10
    heylogo  
       2021-12-10 11:03:13 +08:00   ❤️ 1
    再加个虚拟形象,感觉新闻播音员快要下岗了,完全可替代,还不会出错
    sillydaddy
        11
    sillydaddy  
       2021-12-10 11:05:38 +08:00   ❤️ 20
    “那个场景实在是太可怕了,我这一辈子也不愿再回想它。我不希望我整天被这个噩梦缠绕。你知道吗,我简直就要崩溃了,实在太可怕了,放过我吧,我不想再去回想它了。


    上面这段话,Voice 选「晓晓」,style 选「 Fearful 」,读出来真有感情。太可怕了。

    不同的 Voice 还是有差异的,有的就平淡无奇。
    zkhhkz123
        12
    zkhhkz123  
       2021-12-10 11:06:52 +08:00   ❤️ 1
    有点牛逼…… 还能选语气
    ghjexxka
        13
    ghjexxka  
       2021-12-10 11:09:57 +08:00
    公司平时的学习会我都是用 edge 开 pdf 让它自己读,还可以调速哈哈哈哈
    cairnechen
        14
    cairnechen  
    OP
       2021-12-10 11:11:30 +08:00
    @sillydaddy

    有的 Vocie 还有 Role play ,云希选 boy 秒变正太音
    hydyy
        15
    hydyy  
       2021-12-10 11:13:05 +08:00
    太屌了
    lvdb
        16
    lvdb  
       2021-12-10 11:25:46 +08:00
    之前试用过一个 chrome 插件,speechify ,声音也很自然。

    https://speechify.com/
    paopaosa
        17
    paopaosa  
       2021-12-10 11:26:39 +08:00   ❤️ 1
    在 macOS 里选中文字段落,按 Option+Esc 用 Siri 的朗读也行。记得要选那个“Sir 声音 1”或者“Siri 声音 2”。语气停顿什么的,都非常接近真人了。我经常用这功能来校对。
    xxfye
        18
    xxfye  
       2021-12-10 11:30:09 +08:00
    正常人不会一口气把一个长句子读完,比如,
    Azure: 中国和尼加拉瓜 gov 决定 | 自公报签署之日起 | 相互承认并恢复大使级外交关系。
    讯飞:中国国和尼加拉瓜 gov | 决定自公报签署之日起 | 相互承认并恢复大使级外交关系。

    但确实不同的 Voice 适应性不同,不同文本同一 Voice 念的也不一样,有时文本接近真人,有些文本机械感还很强。

    现在的 TTS 简直可怕啊,很多时候接到推销诈骗电话一下子根本反应不过来是 AI 还是人,一般会打立马断他说话并询问一些随机问题进行判断。

    声优失业.jpg
    cairnechen
        19
    cairnechen  
    OP
       2021-12-10 11:32:20 +08:00
    @xxfye

    我第一次听到云希的声音就觉得像我听的有声小说里的男配音,这种风格的不要太多
    xiaolaodi
        20
    xiaolaodi  
       2021-12-10 11:41:42 +08:00
    柯南里的变身器可以开始量产了。。。
    Rwing
        21
    Rwing  
       2021-12-10 11:43:19 +08:00
    惊呆了,后面几个小孩子的声音棒极了
    d7101120120
        22
    d7101120120  
       2021-12-10 11:52:52 +08:00
    云希的 boy 正太音很好听
    statement
        23
    statement  
       2021-12-10 11:53:04 +08:00
    这个要怎么导出来 还是要购买服务
    makelove
        24
    makelove  
       2021-12-10 12:00:20 +08:00
    非常 OK,不过替代专业播音员那是不可能的,毕竟要做到真人 100%无错水平那还是要真正理解正文内容的。
    当然现在做到 95%水平一般非高要求场景用用也可以了,就和 AI 翻译差不多,以大数据深度学习永远不可能达到真人类水平,要搞出真正的强人工智能才行。
    miyunda
        25
    miyunda  
       2021-12-10 12:03:16 +08:00   ❤️ 4
    我有一个大胆的想法
    xinghen57
        26
    xinghen57  
       2021-12-10 12:07:14 +08:00 via iPhone
    奈何中文不行。
    同类还有 amazon 、Google 两家。
    Scare
        27
    Scare  
       2021-12-10 12:13:42 +08:00
    真的太强大了
    shunia
        28
    shunia  
       2021-12-10 12:20:56 +08:00
    选中文的话,如果文本里有英文还是有点尴尬,纯中文的部分都十分恐怖
    maplerecall
        29
    maplerecall  
       2021-12-10 12:23:03 +08:00 via Android
    是的,我之前把手机导航的语音都换成 azure 的了,感觉还蛮好的
    Lemeng
        30
    Lemeng  
       2021-12-10 12:26:22 +08:00
    强大挺好的。多多益善
    haozi1986
        31
    haozi1986  
       2021-12-10 12:28:25 +08:00
    其实更期待 离线语音合成 有一天能够达到这种效果,只不过目前来说希望渺茫
    linshuizhaoying
        32
    linshuizhaoying  
       2021-12-10 12:31:46 +08:00
    这个我拿来搞幼教了 调一下 三字经播放很圆润
    FaneLau
        33
    FaneLau  
       2021-12-10 12:34:19 +08:00 via Android
    @maplerecall 求教如何把 Android 手机内置的 Google TTS 声音替换成微软的这些
    xingye163
        34
    xingye163  
       2021-12-10 12:59:41 +08:00
    用了好多年了,不过一直是用来听网络小说,最早 18 年的时候追书神器里的那个梅长苏语音是见到最舒服的,后面倒了,现在微信读书的 AI 语音基本也可以达到真人的 8~90%的程度了
    xylxAdai
        35
    xylxAdai  
       2021-12-10 13:08:44 +08:00
    太牛了~
    douglas1997
        36
    douglas1997  
       2021-12-10 13:28:30 +08:00
    牛逼
    lefer
        37
    lefer  
       2021-12-10 13:28:56 +08:00
    @sillydaddy MD 试听后感觉确实太可怕了。。。TTS 还能选语气,永远不会出错,有声书主播危。
    lefer
        38
    lefer  
       2021-12-10 13:31:35 +08:00   ❤️ 2
    “随后,人民币兑美元在岸价和离岸价格迅速下跌。财新网 9 日报导,消息发布后,离岸人民币兑美元短线立刻下跌超过 70 个基点( BP ),随后连续跌破 6.35 、6.36 、6.37 和 6.38 点位,盘中一度下跌 300 基点;在岸人民币兑美元也迅速下挫,先后跌破 6.35 、6.36 和 6.37 点位。”

    上面这段话,Voice 选「晓晓」,style 选「 newscast 」,新闻主播危。
    lzihua
        39
    lzihua  
       2021-12-10 14:04:42 +08:00
    试了下。绝了。
    xbiyy
        40
    xbiyy  
       2021-12-10 14:36:53 +08:00   ❤️ 7
    女声都是 晓 => X 染色体
    男声都是 云 => Y 染色体

    不知道是不是故意的
    lin98
        41
    lin98  
       2021-12-10 14:42:30 +08:00
    @xbiyy 角度刁钻
    guanhui07
        42
    guanhui07  
       2021-12-10 14:49:35 +08:00
    真牛逼
    turan12
        43
    turan12  
       2021-12-10 14:51:28 +08:00
    我之前用 Azure TTS 撸了一个文本转语音工具,可以移步这里 https://v2ex.com/t/676837
    AllenHua
        44
    AllenHua  
       2021-12-10 14:54:37 +08:00
    https://m.weibo.cn/detail/4712608936231299

    我早上看到阮一峰微博就谈及了这个
    Tumblr
        45
    Tumblr  
       2021-12-10 14:57:05 +08:00
    Microsoft Edge 里的 Read Aloud 就是用的这个,若干时间之前我用 read aloud 读文档然后手机录音,放给群里的一群人听,没有人觉得是机器朗读。
    32
        46
    32  
       2021-12-10 14:57:59 +08:00
    遇到事情的时候他们大概率会站在你这一边

    这句话会识别错误 概率 -> gai shuai
    SZP1206
        47
    SZP1206  
       2021-12-10 14:58:21 +08:00
    @miyunda 愿闻其详
    whatalittleboy
        48
    whatalittleboy  
       2021-12-10 15:17:04 +08:00
    @32 “率”字后加空格就好了
    iVeego
        49
    iVeego  
       2021-12-10 15:22:10 +08:00 via Android
    微软在这里有黑科技
    zjddp
        50
    zjddp  
       2021-12-10 15:23:46 +08:00
    @miyunda 做黄游吗 手动 doge
    yanzhiling2001
        51
    yanzhiling2001  
       2021-12-10 15:31:03 +08:00
    这玩意贵不贵,买得多少钱
    Asuka0947
        52
    Asuka0947  
       2021-12-10 15:35:04 +08:00
    我突然回想起了,x 站播放的广告,玩一个能让你......,嗯,不知道用的哪家的
    miniliuke
        53
    miniliuke  
       2021-12-10 15:40:28 +08:00
    如果加上语义分析,读出感情......让我们欣赏诗朗诵
    melvin
        54
    melvin  
       2021-12-10 15:40:51 +08:00
    为未来 AI 机器人做前期铺垫
    tomari
        55
    tomari  
       2021-12-10 15:43:13 +08:00 via iPhone
    B 站上的营销号用的全是这个声音
    cheese
        56
    cheese  
       2021-12-10 15:51:05 +08:00
    之前用 edge 浏览器朗诵的时候就发现了,真的是太自然了
    Alwaysonline
        57
    Alwaysonline  
       2021-12-10 15:59:14 +08:00
    确实有点恐怖, 短视频配音可以应用的话,南方人的福音啊。
    hidemyself
        58
    hidemyself  
       2021-12-10 15:59:20 +08:00
    好牛,比我读得好的太多了
    aikilan
        59
    aikilan  
       2021-12-10 16:00:33 +08:00
    中文你选择那个“云希”发声,真的头皮发麻。
    wupeng756
        60
    wupeng756  
       2021-12-10 16:05:10 +08:00
    文字加上语调和情绪 不就和真人差不多了么
    86091566
        61
    86091566  
       2021-12-10 16:08:11 +08:00
    感觉还是听得出来是机器人,不过播音员的确有点危险了
    xiaocongcong
        62
    xiaocongcong  
       2021-12-10 16:09:41 +08:00
    听不得短视频里面那种机器人播报。。。
    starrys
        63
    starrys  
       2021-12-10 16:11:38 +08:00
    @whatalittleboy 加空格就有了明显的停顿,你在前面多加几个空格感受下?
    hahastudio
        64
    hahastudio  
       2021-12-10 16:14:29 +08:00
    @32 从来没读错过,但你说了我才发现率是多音字。。。
    yuhangch
        65
    yuhangch  
       2021-12-10 16:15:57 +08:00
    我也能当 up 主了?哈哈😃
    s127
        66
    s127  
       2021-12-10 16:20:16 +08:00
    xiaoxiao + gentle ,播放出来的声音跟“正念冥想 app”的发音一模一样
    starrys
        67
    starrys  
       2021-12-10 16:27:50 +08:00
    现在 B 站上已经有很多视频都使用 TTS 生成了。带来的问题是同质化严重、没有特色,不同的 UP 都一个声音就有点腻。

    不要对技术太自信了。虽然比以前好很多,还是有明显的机器味。而且,如果用得人多了的话,会出现同质化严重的问题。现在网上的很多视频就是使用 TTS 生成的,听着有点腻。
    shakoon
        68
    shakoon  
       2021-12-10 16:28:19 +08:00
    不错不错,还有这么丰富的调节选项。 突然想起了张亚勤,m$的 tts 应该有很多他的贡献
    crab
        69
    crab  
       2021-12-10 16:29:18 +08:00
    @starrys 那些短视频的电影解说估计也有用这个。
    hronro
        70
    hronro  
       2021-12-10 16:30:12 +08:00
    确实厉害啊
    luojianxhlxt
        71
    luojianxhlxt  
       2021-12-10 16:35:10 +08:00
    @maplerecall 大佬,怎么更换啊
    Unclev21x
        72
    Unclev21x  
       2021-12-10 16:49:05 +08:00
    @AllenHua 昨天有网友发帖了。今天看评论,谷歌在 17 年就有这个水平了,还吐槽阮一峰平时都不上网的么。
    DCELL
        73
    DCELL  
       2021-12-10 17:21:11 +08:00
    我有一个大胆的想法,TTS 翻译某个主角为“白洁”的作品,请问犯法么。
    hronro
        74
    hronro  
       2021-12-10 17:37:25 +08:00
    @Unclev21x
    Google 的有在线演示吗?想看看现在什么水平了
    yadiman
        75
    yadiman  
       2021-12-10 17:42:25 +08:00 via iPhone
    云希的语音听到想吐。短视频都是这音调的配音。
    starrys
        76
    starrys  
       2021-12-10 17:43:22 +08:00
    @DCELL 只想是不犯法的。
    peanutgao
        77
    peanutgao  
       2021-12-10 17:47:17 +08:00
    真的太牛逼了
    kiotech
        78
    kiotech  
       2021-12-10 17:51:03 +08:00   ❤️ 1
    有人试过读小说吗?比如:“少 X 白洁”
    www5070504
        79
    www5070504  
       2021-12-10 17:51:31 +08:00
    卧槽 我刚把自己写的文档粘贴进去, 这语音几乎完美

    提俩小瑕疵 1.念数字的时候有时候音调有问题 2.汉语中带英语的时候停顿稍微有点不对
    bug123
        80
    bug123  
       2021-12-10 17:55:49 +08:00
    用来听小黄文应该很棒
    MXMIS
        81
    MXMIS  
       2021-12-10 17:58:27 +08:00
    感觉真的可以以假乱真了
    stephenyin
        82
    stephenyin  
       2021-12-10 18:08:16 +08:00   ❤️ 5
    @miyunda #25 我实现了你的想法
    “哦,哦,用力,不要停,啊,啊,啊,啊,啊,我,我快不行了!”
    voice:xiaoxuan ,style:fearful ,role:girl ,pitch:1.22
    johnsona
        83
    johnsona  
       2021-12-10 18:08:16 +08:00 via iPhone
    fastspeech 好的数据训模型打底
    BestQueffEver
        84
    BestQueffEver  
       2021-12-10 18:15:41 +08:00   ❤️ 1
    如果你关注一些营销号,就会发现微软 TTS 已经大规模应用了。说实话,听多了也就那样,只不过从以前搞笑的机械音变成貌似有感情但依然死板。
    starrycat
        85
    starrycat  
       2021-12-10 18:24:08 +08:00 via Android
    不同情绪这个很强
    phytry
        86
    phytry  
       2021-12-10 19:02:29 +08:00
    0. 0 不知道可不可以免费商用,如果可以的话,那做有声书和动画或者其他需要配音的东西,就简单很多了
    Gav1n1995
        87
    Gav1n1995  
       2021-12-10 19:24:59 +08:00
    有点牛逼
    IGJacklove
        88
    IGJacklove  
       2021-12-10 19:47:06 +08:00
    @sillydaddy 哈哈,选这个模式,然后把文本换成 "啊!不要!不要停!" ,试试,感觉可以去给色情小说配音了.
    IGJacklove
        89
    IGJacklove  
       2021-12-10 19:49:15 +08:00   ❤️ 1
    @stephenyin 你这个不行,Voice:XiaoXiao,Speaking style:Fearful.这个比你这个更有感情
    qdwang
        90
    qdwang  
       2021-12-10 20:02:35 +08:00 via Android   ❤️ 1
    吕小绿家养了红鲤鱼绿鲤鱼和驴。李小莉家养了红驴绿驴和鲤鱼。吕小绿家的红鲤鱼绿鲤鱼和驴要跟李小莉家的红驴绿驴和鲤鱼比一比谁更红谁更绿。吕小绿说他家的绿鲤鱼比李小莉家的绿驴绿,李小莉说她家的绿驴比吕小绿家的绿鲤鱼绿。也不知是吕小绿家的绿鲤鱼比李小莉家的绿驴绿,还是李小莉家的绿驴比吕小绿家的绿鲤鱼绿。绿鲤鱼比绿驴,绿驴比绿鲤鱼。最后,吕小绿要拿绿鲤鱼换李小莉的绿驴,李小莉不愿意用绿驴换吕小绿的绿鲤鱼。红鲤鱼绿鲤鱼和驴,红驴绿驴和鲤鱼。不知是绿鲤鱼比绿驴绿还是绿驴比绿鲤鱼绿。

    抛砖引玉
    podel
        91
    podel  
       2021-12-10 20:06:40 +08:00
    云希 的男声 还好好听哦
    Biwood
        92
    Biwood  
       2021-12-10 20:07:46 +08:00 via Android
    如果人为的用这个工具把语速的快慢、停顿、情绪变化再编辑一下,结合起来基本可以以假乱真了
    bin456789
        93
    bin456789  
       2021-12-10 20:13:57 +08:00
    小爱这个自定义声音更自然,但语气差了点
    http://mij.cc/a/6AkvtBQ8WrA296E9?from=wx
    stephenyin
        94
    stephenyin  
       2021-12-10 20:34:58 +08:00   ❤️ 2
    @IGJacklove #89 可以的,这个配置确实可以。
    AthensBird
        95
    AthensBird  
       2021-12-10 21:14:59 +08:00
    只想问:「什么时候上线」?
    est
        96
    est  
       2021-12-10 21:51:04 +08:00
    edge 的 read aloud 就效果很好
    lovestudykid
        97
    lovestudykid  
       2021-12-10 23:42:25 +08:00
    Yunyang 和 Yunye 一股播音腔
    lovestudykid
        98
    lovestudykid  
       2021-12-10 23:42:58 +08:00
    要是小说软件整合这个 API 就好了,自带的那种太垃圾
    ElDanno
        99
    ElDanno  
       2021-12-11 00:48:03 +08:00
    我做的整一个视频都是拿这个做的配音,问题就是读音有时候出错需要人为注音
    aureole999
        100
    aureole999  
       2021-12-11 00:49:23 +08:00
    @hronro https://cloud.google.com/text-to-speech 不过中文可选项很少。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2850 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:44 · PVG 19:44 · LAX 04:44 · JFK 07:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.