刷抖音看到很多不同的内容解说,但是发音听起来像是同一个人,猜测是用了文本阅读技术,解说的很自然,听起来
就是真人发音,但是以往的印象文本阅读都是很有机器人味道的,不自然,没有感情。
所以说现在是技术进步了?
1
superrichman 2022-10-16 09:20:58 +08:00 via Android 2
用的是微软的 tts ,你用 edge 浏览器就能体验到。
|
2
vbs 2022-10-16 09:25:48 +08:00
你试试这个页面里面的 demo ,自然就知道了: https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/#features
|
3
vbs 2022-10-16 09:26:54 +08:00
而且可以更换说话风格哟,比如可以用“惊恐”得语调阅读
|
4
cmdOptionKana 2022-10-16 09:27:21 +08:00
是,番茄小说的 AI 朗读技术真的吓到我了,可以有男女老少不同角色,可以选择东北话、四川话之类的发音习惯,而且每句话还可以有愤怒、愉悦、冷漠等不同的语气,而这些,都是用 AI 做的(不知道其中人工标记工作量大不大)。
但是,只有少量书有多角色 AI ,我猜高质量的 AI 阅读渲染成本比较高,但能做出来,而且已经商用了。 但是也有难点没有克服,主要就是中文里的多音字,这个是重灾区,经常念错。 |
5
davinci21s OP |
6
LZSZ 2022-10-16 09:44:31 +08:00
见过手动设置角色语音的 demo , 但是小说要是手动设置的话那也太痛苦了。
|
7
kingjpa 2022-10-16 09:49:00 +08:00
除了生僻字,多音字, 其他已经远超你的想象了。远比 siri 和小爱哪这种强得多
|
8
zlzhdark 2022-10-16 10:00:31 +08:00
你听到的绝对是微软文本转语音,声优还必须是云希
|
9
GuuJiang 2022-10-16 10:19:26 +08:00 via iPhone 6
注意看,这个男人叫小帅
|
10
eason1874 2022-10-16 10:27:04 +08:00
角色选播音主持人,已经可以做到听不出来跟真实主持人的区别
其他角色还是不太行,单摘几句出来可以说跟真人一模一样,但是一大段还是能听出来是 AI ,因为 AI 很稳定,而普通人讲话久了是时快时慢的,前后语速和停顿有差异,AI 没有差异就过于完美就缺少真实感了 |
11
TimePPT 2022-10-16 10:28:50 +08:00 via Android
看标题以为讨论的是机器阅读理解,结果是 TTS😂
中文 TTS 的话,其实大多数厂商就是可用水平。效果好的也就是微软和阿里。主要这玩意想调教好烧钱。 |
12
ho121 2022-10-16 10:33:31 +08:00 via Android
还记得上学时的英语磁带么?
|
13
tqyq88 2022-10-16 10:37:04 +08:00
机器人?
啊,怎么会呢,肯定是员工给你打电话的啦。 我们联通都是经过统一严格的培训的。 |
15
ZE3kr 2022-10-16 14:02:33 +08:00 via iPhone
现在每次接到推销电话,我第一句话就问“你是真人吗?”,有时候图省事就直接问“你是人吗?”,不知道有没有冒犯到真的人😂主要还是 AI 太强了
|
16
intelmd 2022-10-16 14:12:55 +08:00 via Android
哈哈,果然是云希!
|
17
dobelee 2022-10-16 14:14:09 +08:00
某音上见过挺过非常好的 AI ,有的已经几乎听不出机器感,并且音色还非常个性,不过不清楚哪个平台的服务。
|
18
dxgfalcongbit 2022-10-17 16:44:04 +08:00 via Android
我觉得 edge 那个阅读就不错,edge 改内核后这个功能停了一段时间,记得不久前才续上。
|