开源声音克隆神器，可使用任何人类音色

2024年4月2日11:33:34评论10 views字数 1738阅读5分47秒阅读模式

该项目所用模型均源于 https://github.com/coqui-ai/TTS ，模型协议为CPML只可用于学习研究，不可商用

这是一个声音克隆工具，可使用任何人类音色，将一段文字合成为使用该音色说话的声音，或者将一个声音使用该音色转换为另一个声音。使用非常简单，没有N卡GPU也可以使用，下载预编译版本，双击 app.exe 打开一个web界面，鼠标点点就能用。

支持中、英、日、韩、法、德、意等16种语言，可在线从麦克风录制声音。

为保证合成效果，建议录制时长5秒到20秒，发音清晰准确，不要存在背景噪声。

英文效果很棒，中文效果还凑合。

成功启动后，会自动在浏览器中打开http://127.0.0.1:9988；

window预编译版使用方法(其他系统可源码部署)

1. 下载预编译版主文件(1.7G) 和模型(3G)

2. 下载后解压到某处，比如 E:/clone-voice 下

3. 双击 app.exe ，等待自动打开web窗口，请仔细阅读cmd窗口的文字提示,如有错误，均会在此显示

4. 模型下载后解压到软件目录下的 tts 文件夹内，解压后效果如图

开源声音克隆神器，可使用任何人类音色

5. 转换操作步骤

选择【文字->声音】按钮，在文本框中输入文字、或点击导入srt字幕文件，然后点击“立即开始”。

选择【声音->声音】按钮，点击或拖拽要转换的音频文件(mp3/wav/flac)，然后从“要使用的声音文件”下拉框中选择要克隆的音色，如果没有满意的，也可以点击“本地上传”按钮，选择已录制好的5-20s的wav/mp3/flac声音文件。或者点击“开始录制”按钮，在线录制你自己的声音5-20s，录制完成点击使用。然后点击“立即开始”按钮

6. 如果机器拥有N卡GPU，并正确配置了CUDA环境，将自动使用CUDA加速

源码部署(linux mac window)

源码版需要在 .env 中 HTTP_PROXY=设置代理(比如http://127.0.0.1:7890)，要从 https://huggingface.co https://github.com 下载模型，而这个网址国内无法访问，必须保证代理稳定可靠，否则大模型下载可能中途失败

0. 要求 python 3.9->3.11

1. 创建空目录，比如 E:/clone-voice, 在这个目录下打开 cmd 窗口，方法是地址栏中输入 cmd , 然后回车。使用git拉取源码到当前目录 git clone [email protected]:jianchang512/clone-voice.git .

2. 创建虚拟环境 python -m venv venv

3. 激活环境，win下 E:/clone-voice/venv/scripts/activate ，

4. 安装依赖: pip install -r requirements.txt

5. win下解压 ffmpeg.7z，将其中的 ffmpeg.exe 和 app.py 在同一目录下, linux和mac 到 ffmpeg官网下载对应版本ffmpeg，解压其中的 ffmpeg 程序到根目录下，必须将可执行二进制文件 ffmpeg和app.py放在同一目录下。

开源声音克隆神器，可使用任何人类音色

6. 首先运行python code_dev.py ，在提示同意协议时，输入 y ，然后等待模型下载完毕。

开源声音克隆神器，可使用任何人类音色

下载模型需要挂全局代理，模型非常大，如果代理不够稳定可靠，可能会遇到很多错误，大部分的错误均是代理问题导致。

如果显示下载多个模型均成功了，但最后还是提示“Downloading WavLM model”错误，则需要修改库包文件 venvLibsite-packagesaiohttpclient.py , 在大约535行附近， if proxy isnot None: 上面一行添加你的代理地址，比如 proxy="http://127.0.0.1:10809" .

7. 下载完毕后，再启动 python app.py ，

8. 每次启动都会连接墙外检测或更新模型，请耐心等待。如果不想每次启动都检测或更新，需手动修改依赖包下文件，打开 venvLibsite-packagesTTSutilsmanage.py ,大约 389 行附近，defdownload_model 方法中，注释掉如下代码

编译版运行效果：

开源声音克隆神器，可使用任何人类音色

后台回复克隆获取主程序和模型

原文始发于微信公众号（蓝胖子之家）：开源声音克隆神器，可使用任何人类音色

左青龙
微信扫一扫

右白虎
微信扫一扫

开源声音克隆神器，可使用任何人类音色

如何使用MultCheck从静态分析结果中识别恶意字节数据

密探渗透工具v1.06测试版

工具 | 快速遍历目标目录中的敏感信息

禅道最新身份认证绕过漏洞利用工具（4月29日更新）

个人项目分享

文件夹加密工具-支持AES、Blowfish等多种加密算法

Frameless BITB：一款功能强大的BitB安全测试工具

Baidu Comate：AI +让软件研发更高效更安全

NoMoney 信息收集工具，其中集成了fofa，zoomeye(钟馗之眼)，censys，奇安信的鹰图平台，360quake

内网安全-隧道&内网穿透上线

发表评论

在线咨询

微信