Giter Club home page Giter Club logo

real-time-voice-cloning's Introduction

实时语音克隆

该存储库是使用实时工作的声码器实现从说话者验证到多说话者文本到语音合成 (SV2TTS) 的迁移学习的实现。这是我的硕士论文

SV2TTS是一个分为三个阶段的深度学习框架。在第一阶段,人们从几秒钟的音频中创建声音的数字表示。在第二和第三阶段,该表示被用作参考来生成给定任意文本的语音。

视频演示(点击图片):

工具箱演示

论文实施

网址 指定 标题 实现源码
1806.04558 SV2TTS 从说话人验证到多说话人文本语音合成的迁移学习 这个仓库
1802.08435 WaveRNN(声码器) 高效的神经音频合成 和弦/WaveRNN
1703.10135 Tacotron(合成器) Tacotron:走向端到端语音合成 和弦/WaveRNN
1710.10467 GE2E(编码器) 用于说话人验证的广义端到端损耗 这个仓库

小心

与深度学习中的其他所有内容一样,这个存储库很快就会过时。许多其他开源存储库或 SaaS 应用程序(通常是付费的)将为您提供比此存储库更好的音频质量。如果您关心所克隆的声音的保真度及其表现力,以下是一些替代语音克隆解决方案的个人建议:

  • 查看CoquiTTS以获得更新的开源存储库,该存储库具有更好的语音克隆质量和更多功能。
  • 查看其他存储库的带有代码的论文以及语音合成领域的最新研究。
  • 查看Resemble.ai(免责声明:我在那里工作),轻松轻松地进行最先进的语音克隆。

设置

1. 安装要求

  1. Windows 和 Linux 均受支持。建议使用 GPU 来进行训练和推理速度,但这不是强制性的。
  2. 推荐使用Python 3.7。Python 3.5 或更高版本应该可以工作,但您可能必须调整依赖项的版本。我建议使用 设置虚拟环境venv,但这是可选的。
  3. 安装ffmpeg。这是读取音频文件所必需的。
  4. 安装PyTorch。选择最新的稳定版本、您的操作系统、包管理器(默认为 pip),如果您有 GPU,最后选择任何建议的 CUDA 版本,否则选择 CPU。运行给定的命令。
  5. 安装其余要求pip install -r requirements.txt

2.(可选)下载预训练模型

现在会自动下载预训练模型。如果这不适合您,您可以在此处手动下载它们。

3.(可选)测试配置

在下载任何数据集之前,您可以通过以下方式开始测试您的配置:

python demo_cli.py

如果所有测试都通过,那么您就可以开始了。

4.(可选)下载数据集

对于单独使用工具箱,我只建议下载LibriSpeech/train-clean-100. 将内容提取到您选择的目录<datasets_root>/LibriSpeech/train-clean-100中。<datasets_root>工具箱中支持其他数据集,请参阅此处。您可以不下载任何数据集,但是您将需要自己的数据作为音频文件,或者您必须使用工具箱录制它。

5.启动工具箱

然后您可以尝试工具箱:

python demo_toolbox.py -d <datasets_root>
或者
python demo_toolbox.py

取决于您是否下载了任何数据集。如果您正在运行 X-server 或者遇到错误Aborted (core dumped),请参阅此问题

real-time-voice-cloning's People

Contributors

corentinj avatar alexpeattie avatar matheusfillipe avatar vanpelt avatar lidalei avatar mathigatti avatar niwala avatar cforcomputer avatar ramalamadingdong avatar rancoud avatar rishi0812 avatar tomcattwo avatar ak9250 avatar cclauss avatar yuanzhongqiao avatar ca-ressemble-a-du-fake avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.