开源声音克隆神器,可使用任何人类音色

admin 2024年4月2日11:33:34评论9 views字数 1738阅读5分47秒阅读模式

该项目所用模型均源于 https://github.com/coqui-ai/TTS ,模型协议为CPML只可用于学习研究,不可商用

这是一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。使用非常简单,没有NGPU也可以使用,下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点就能用。

支持 中、英、日、韩、法、德、意等16种语言,可在线从麦克风录制声音。

为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。

英文效果很棒,中文效果还凑合。

成功启动后,会自动在浏览器中打开http://127.0.0.1:9988;

window预编译版使用方法(其他系统可源码部署)

1. 下载预编译版主文件(1.7G) 和 模型(3G)

2. 下载后解压到某处,比如 E:/clone-voice

3. 双击 app.exe ,等待自动打开web窗口,请仔细阅读cmd窗口的文字提示,如有错误,均会在此显

4. 模型下载后解压到软件目录下的 tts 文件夹内,解压后效果如图

开源声音克隆神器,可使用任何人类音色

5. 转换操作步骤

选择【文字->声音】按钮,在文本框中输入文字、或点击导入srt字幕文件,然后点击立即开

选择【声音->声音】按钮,点击或拖拽要转换的音频文件(mp3/wav/flac),然后从要使用的声音文件下拉框中选择要克隆的音色,如果没有满意的,也可以点击本地上传按钮,选择已录制好的5-20swav/mp3/flac声音文件。或者点击开始录制按钮,在线录制你自己的声音5-20s,录制完成点击使用。然后点击立即开始按钮

6. 如果机器拥有NGPU,并正确配置了CUDA环境,将自动使用CUDA加速

源码部署(linux mac window)

源码版需要在 .env HTTP_PROXY=设置代理(比如http://127.0.0.1:7890),要从 https://huggingface.co https://github.com 下载模型,而这个网址国内无法访问,必须保证代理稳定可靠,否则大模型下载可能中途失败

0. 要求 python 3.9->3.11

1. 创建空目录,比如 E:/clone-voice, 在这个目录下打开 cmd 窗口,方法是地址栏中输入 cmd , 然后回车。使用git拉取源码到当前目录 git clone [email protected]:jianchang512/clone-voice.git .

2. 创建虚拟环境 python -m venv venv

3. 激活环境,winE:/clone-voice/venv/scripts/activate

4. 安装依赖: pip install -r requirements.txt

5. win下解压 ffmpeg.7z,将其中的 ffmpeg.exe app.py 在同一目录下, linuxmac ffmpeg网下载对应版本ffmpeg,解压其中的 ffmpeg 程序到根目录下,必须将可执行二进制文件 ffmpegapp.py放在同一目录下。

开源声音克隆神器,可使用任何人类音色

6. 首先运行python code_dev.py ,在提示同意协议时,输入 y ,然后等待模型下载完毕。

开源声音克隆神器,可使用任何人类音色

开源声音克隆神器,可使用任何人类音色

下载模型需要挂全局代理,模型非常大,如果代理不够稳定可靠,可能会遇到很多错误,大部分的错误均是代理问题导致。

如果显示下载多个模型均成功了,但最后还是提示“Downloading WavLM model”错误,则需要修改库包文件 venvLibsite-packagesaiohttpclient.py , 在大约535行附近, if proxy isnot None: 上面一行添加你的代理地址,比如 proxy="http://127.0.0.1:10809" .

7. 下载完毕后,再启动 python app.py

8. 每次启动都会连接墙外检测或更新模型,请耐心等待。如果不想每次启动都检测或更新,需手动修改依赖包下文件,打开 venvLibsite-packagesTTSutilsmanage.py ,大约 389 行附近,defdownload_model 方法中,注释掉如下代码

编译版运行效果:

开源声音克隆神器,可使用任何人类音色

开源声音克隆神器,可使用任何人类音色

后台回复克隆获取主程序和模型

原文始发于微信公众号(蓝胖子之家):开源声音克隆神器,可使用任何人类音色

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年4月2日11:33:34
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   开源声音克隆神器,可使用任何人类音色https://cn-sec.com/archives/2617834.html

发表评论

匿名网友 填写信息