关于多角色、声音素材、训练次数的疑问 about so-vits-svc HOT 6 CLOSED

svc-develop-team commented on July 28, 2024

关于多角色、声音素材、训练次数的疑问

from so-vits-svc.

Comments (6)

Miuzarte commented on July 28, 2024

有以下疑问请大佬们解答：已整理了3个角色干声，每个角色大概1万多条语音，每条在2-13秒以内。 batch_size: 4，learning_rate: 0.0001，3060Laptop(6G),内存24G。 1、多角色一起训练好？还是单独每个角色训练比较好？ 2、有必要每个角色都放1万多条语音数据进行训练吗？是数据多好？还是训练次数多好？ 3、Epoch: per cost 236.25s，如果一起训练3个角色，给予足够时间，3万多条语音都会跑训一遍？ 4、如果前期只使用小量干声数据，后期可以增加干声数据继续训练吗，如何操作稳妥？ 5、如果一开始就进行单角色训练，后期就不能增加角色了吗，只能单独再训练一个模型？

感谢大佬！

数据集足够多的时候单角色多角色模型区别不大
多点没事，可以比较有效的防止过拟合
一个epoch就是走完了一遍整个数据集
不建议中途更改数据集
在config.json中，n_speakers决定了模型的最大说话人数，n_speakers需要大于1才能在之后继续增加说话人

from so-vits-svc.

cypinpai commented on July 28, 2024

。。。。。

不建议中途更改数据集

在config.json中，n_speakers决定了模型的最大说话人数，n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复！很详细，疑惑终于有了专业的解答，十分感谢！！！

1、根据您回复的第4、5条内容，我计划以下操作方法是否正确：
新建5个speakers，其中只有一个放专人的语音素材，另外4个是空白文件夹。等第一个speakers训练完成，后面再逐个增加对应的语音素材进行别的角色训练，可否？

2、目前我使用4.0版本，建立了3个角色同时训练，每个500条10秒左右语音（朗读干声无杂音），已进行：Epoch: 478，ep: 177400，但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢？如果是使用SOVITS4.0V2版本会不会有改善？

from so-vits-svc.

Miuzarte commented on July 28, 2024

。。。。。

不建议中途更改数据集

在config.json中，n_speakers决定了模型的最大说话人数，n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复！很详细，疑惑终于有了专业的解答，十分感谢！！！

1、根据您回复的第4、5条内容，我计划以下操作方法是否正确：新建5个speakers，其中只有一个放专人的语音素材，另外4个是空白文件夹。等第一个speakers训练完成，后面再逐个增加对应的语音素材进行别的角色训练，可否？

2、目前我使用4.0版本，建立了3个角色同时训练，每个500条10秒左右语音（朗读干声无杂音），已进行：Epoch: 478，ep: 177400，但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢？如果是使用SOVITS4.0V2版本会不会有改善？

后期添加speaker的具体流程我不太清楚，也许在划分完数据集生成了配置之后会需要手动修改config.json之类的操作

朗读干声无杂音的数据可以考虑一下隔壁diff-svc（原版diff-svc或openvpi团队维护的魔改版），sovits因为各种不能说的原因导致目前没有官方底模可用，出来的效果很一般，训练久了还容易过拟合

from so-vits-svc.

cypinpai commented on July 28, 2024

。。。。。

不建议中途更改数据集

在config.json中，n_speakers决定了模型的最大说话人数，n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复！很详细，疑惑终于有了专业的解答，十分感谢！！！
1、根据您回复的第4、5条内容，我计划以下操作方法是否正确：新建5个speakers，其中只有一个放专人的语音素材，另外4个是空白文件夹。等第一个speakers训练完成，后面再逐个增加对应的语音素材进行别的角色训练，可否？
2、目前我使用4.0版本，建立了3个角色同时训练，每个500条10秒左右语音（朗读干声无杂音），已进行：Epoch: 478，ep: 177400，但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢？如果是使用SOVITS4.0V2版本会不会有改善？

后期添加speaker的具体流程我不太清楚，也许在划分完数据集生成了配置之后会需要手动修改config.json之类的操作

朗读干声无杂音的数据可以考虑一下隔壁diff-svc（原版diff-svc或openvpi团队维护的魔改版），sovits因为各种不能说的原因导致目前没有官方底模可用，出来的效果很一般，训练久了还容易过拟合

明白了，感谢大佬指明方向！

from so-vits-svc.

leng-yue commented on July 28, 2024

个人观察, 电音会逐渐减小, 直到 28w 步左右会消失 (加上了 M4Singer 数据集).

from so-vits-svc.

ltm920716 commented on July 28, 2024

请教 @Miuzarte ，手里只有20-30条语音文本，请问有比较好的few-shot-tts项目可以用来训练模型，然后再生成更多的语音来训练svc么，或者当前项目能支持few-shot训练么，用户场景真正的语音数据确实比较少，所以来请教一下，谢谢

from so-vits-svc.

关于多角色、声音素材、训练次数的疑问 about so-vits-svc HOT 6 CLOSED

Comments (6)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent