Simon95 最近的时间轴更新
Simon95

Simon95

V2EX 第 511891 号会员,加入于 2020-10-10 14:43:43 +08:00
Simon95 最近回复了
@diyer22 DDN 和 RVQ ( Residual vector Quantization )我觉得结合 GPT 在训练时候可能都有一个问题,就是第一层的码本(对应着 DDN 第一个 level )的重建都相当好,但其余码本的效果就比较差。
因为 DDN 好像不同 level 之间也类似于的“残差”?但是在样本空间,而不是在 latent space 。
我就是做语音的,在图像领域最新的论文( Diffusion Transformers with Representation Autoencoders )好像也表示不压缩效果更好。但用 CFM 去做生成的话,好像利用样本空间的分布直接生成的效果不是很好,而用 latent space 的分布更好,我感觉 DDN 的分布更接近于样本空间?
不知道训练的效率怎么样,我找个时间在更大的数据集上跑跑试试。
哇,大佬一个人创新算法,膜拜。还有请教下最近做的工作感觉,FSQ codebook usage 能到 1 ,大佬觉得 VQ-VAE codebook collapse 还是问题吗?
支持,x 关注了,github 星星了。我简单看了下,感觉有点像 RVQ ?
大家意见挺好,我自己也没想好有什么用,做来玩玩。真人录音的付费意愿都很低,AI 现在更平淡。
@midpoint 架构没什么创新的地方就是用播客数据微调的
@metalvest 可以的在点进官网就可以用
2024-01-08 18:20:07 +08:00
回复了 Simon95 创建的主题 分享创造 做了一个自然语音生成的 AI 模型,大家提点意见
@Miller5991 已经更新了,有兴趣可以试试
2023-10-26 09:53:02 +08:00
回复了 Simon95 创建的主题 分享创造 做了一个自然语音生成的 AI 模型,大家提点意见
@sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
@jiayouzl whitenoise 看一下
2023-10-25 10:32:39 +08:00
回复了 Simon95 创建的主题 分享创造 做了一个自然语音生成的 AI 模型,大家提点意见
@siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   922 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 21:58 · PVG 05:58 · LAX 13:58 · JFK 16:58
♥ Do have faith in what you're doing.