Giter Club home page Giter Club logo

Comments (6)

Miuzarte avatar Miuzarte commented on May 16, 2024

有以下疑问请大佬们解答: 已整理了3个角色干声,每个角色大概1万多条语音,每条在2-13秒以内。 batch_size: 4,learning_rate: 0.0001,3060Laptop(6G),内存24G。 1、多角色一起训练好?还是单独每个角色训练比较好? 2、有必要每个角色都放1万多条语音数据进行训练吗?是数据多好?还是训练次数多好? 3、Epoch: per cost 236.25s,如果一起训练3个角色,给予足够时间,3万多条语音都会跑训一遍? 4、如果前期只使用小量干声数据,后期可以增加干声数据继续训练吗,如何操作稳妥? 5、如果一开始就进行单角色训练,后期就不能增加角色了吗,只能单独再训练一个模型?

感谢大佬!

  1. 数据集足够多的时候单角色多角色模型区别不大
  2. 多点没事,可以比较有效的防止过拟合
  3. 一个epoch就是走完了一遍整个数据集
  4. 不建议中途更改数据集
  5. config.json中,n_speakers决定了模型的最大说话人数,n_speakers需要大于1才能在之后继续增加说话人

from so-vits-svc.

cypinpai avatar cypinpai commented on May 16, 2024

。。。。。

  1. 不建议中途更改数据集
  2. config.json中,n_speakers决定了模型的最大说话人数,n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复!很详细,疑惑终于有了专业的解答,十分感谢!!!

1、根据您回复的第4、5条内容,我计划以下操作方法是否正确:
新建5个speakers,其中只有一个放专人的语音素材,另外4个是空白文件夹。等第一个speakers训练完成,后面再逐个增加对应的语音素材进行别的角色训练,可否?

2、目前我使用4.0版本,建立了3个角色同时训练,每个500条10秒左右语音(朗读干声无杂音),已进行:Epoch: 478,ep: 177400,但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢?如果是使用SOVITS4.0V2版本会不会有改善?

from so-vits-svc.

Miuzarte avatar Miuzarte commented on May 16, 2024

。。。。。

  1. 不建议中途更改数据集
  2. config.json中,n_speakers决定了模型的最大说话人数,n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复!很详细,疑惑终于有了专业的解答,十分感谢!!!

1、根据您回复的第4、5条内容,我计划以下操作方法是否正确: 新建5个speakers,其中只有一个放专人的语音素材,另外4个是空白文件夹。等第一个speakers训练完成,后面再逐个增加对应的语音素材进行别的角色训练,可否?

2、目前我使用4.0版本,建立了3个角色同时训练,每个500条10秒左右语音(朗读干声无杂音),已进行:Epoch: 478,ep: 177400,但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢?如果是使用SOVITS4.0V2版本会不会有改善?

后期添加speaker的具体流程我不太清楚,也许在划分完数据集生成了配置之后会需要手动修改config.json之类的操作

朗读干声无杂音的数据可以考虑一下隔壁diff-svc(原版diff-svcopenvpi团队维护的魔改版),sovits因为各种不能说的原因导致目前没有官方底模可用,出来的效果很一般,训练久了还容易过拟合

from so-vits-svc.

cypinpai avatar cypinpai commented on May 16, 2024

。。。。。

  1. 不建议中途更改数据集
  2. config.json中,n_speakers决定了模型的最大说话人数,n_speakers需要大于1才能在之后继续增加说话人

@Miuzarte 感谢大佬的热心回复!很详细,疑惑终于有了专业的解答,十分感谢!!!
1、根据您回复的第4、5条内容,我计划以下操作方法是否正确: 新建5个speakers,其中只有一个放专人的语音素材,另外4个是空白文件夹。等第一个speakers训练完成,后面再逐个增加对应的语音素材进行别的角色训练,可否?
2、目前我使用4.0版本,建立了3个角色同时训练,每个500条10秒左右语音(朗读干声无杂音),已进行:Epoch: 478,ep: 177400,但是推理出来有电音。是因为训练次数不足、500条语音素材太少、还是版本的问题呢?如果是使用SOVITS4.0V2版本会不会有改善?

后期添加speaker的具体流程我不太清楚,也许在划分完数据集生成了配置之后会需要手动修改config.json之类的操作

朗读干声无杂音的数据可以考虑一下隔壁diff-svc(原版diff-svcopenvpi团队维护的魔改版),sovits因为各种不能说的原因导致目前没有官方底模可用,出来的效果很一般,训练久了还容易过拟合

明白了,感谢大佬指明方向!

from so-vits-svc.

leng-yue avatar leng-yue commented on May 16, 2024

个人观察, 电音会逐渐减小, 直到 28w 步左右会消失 (加上了 M4Singer 数据集).

from so-vits-svc.

ltm920716 avatar ltm920716 commented on May 16, 2024

请教 @Miuzarte ,手里只有20-30条语音文本,请问有比较好的few-shot-tts项目可以用来训练模型,然后再生成更多的语音来训练svc么,或者当前项目能支持few-shot训练么,用户场景真正的语音数据确实比较少,所以来请教一下,谢谢

from so-vits-svc.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.