Jack-Cui二开了SoVITS,写了一键训练webui代码:
https://github.com/Jack-Cherish/dsi/blob/main/vits_script/finetune_webui.py
项目基于vits做的二次开发,原项目地址:
https://github.com/Plachtaa/VITS-fast-fine-tuning
为了便于各位训练个人的文本转语音模型,作者特意整合了开发环境,并设计了一键启动训练的方案。除了涵盖声音合成技术外,还包含了与之同等重要的对话型大语言模型训练、人物形象修复以及画面驱动等人工智能算法。
AI翻唱/整合包链接:Sovits https://github.com/Francis-Komizu/Sovits
受到Rcell的启发,我在VITS中将TextEncoder的词嵌入替换为Soft-VC中使用的ContentEncoder的输出,从而实现了非平行数据下的任意一对一语音转换。当然,也可以轻松实现一对多的语音转换!
为了获得更好的语音质量,在Sovits2中,我采用了StarGANv2-VC中使用的f0模型,提取了输入音频的基频特征,并将其输入到VITS的声码器中。
需要训练