变声器?社工?hvv时可以试试,基于 AI 的 RVC 变声器安装踩坑记录。

admin 2023年7月5日19:13:22评论326 views字数 2791阅读9分18秒阅读模式

嗨,大家好,这里是闪石星曜CyberSecurity。

最近在玩变声器,发现了一款不错的变声器 - RVC。

突发奇想,觉得可以利用 AI 针对目标声音进行模型训练,以达到声线声色完美的贴合,实现真实的变声效果,最后进一步社工利用。

如果能收集到目标声音,比如某个领导的声音,时长至少 10 到 30 分钟吧,当然时间越长训练出来的效果越好。

本期,先讲一下 RVC 这款工具以及踩坑安装记录吧。

关于训练模型部分大家可以自行哔哩哔哩查找一下,有很多教程的。

思路抛出来了,实际利用大家各展神通吧,-.-。

交个朋友吧,power_7089。

进入正题

一、RVC 是什么

近一段时间,人工智能同时掀起了实时变声器热潮,虽然我对之前变声器可以说一点不了解,但在四五月份在网上搜索以及准备花钱找人调试实时变身时,突然有一天冒出来了 RVC 实时变声,配合人工智能训练语音模型,简直强的不可描述。

当然目前来看还是有些缺点,比较吃电脑性能。

那什么是 RVC 呢?简单来说就是实时变声器框架,配合训练好的模型,可以实现完美变声,男变女,女变男,甚至学狗叫都是信手拈来。

变声匹配度跟训练有关,越深入匹配度越高,真贴近训练的声音。

总结来说,RVC 就是实时变声器,配合训练好的模型,可以实现输入输出到录音中,直播中,各种语音中,直接化身清纯少女,成熟大叔,魅惑阿狸,令人欲罢不能。你想到的想不到的他目前都能做到。


二、RVC 安装

Github 项目地址:

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

我的环境是:Windows11,Python3.10,Visual Studio 2019 的 C++ 编译环境。

下载 Visual Studio 2019 是因为其中有个 fairseq 依赖需要 C++ 14 以上的库,所以我选择直接安装 Visual Studio 2019 的 C++ 桌面编译环境。

需要注意的是,我在安装时遇见了各种问题,最终选择下载了一个全新的 Python3.10 版本,只自带默认的依赖库,在此基础上 pip 安装了 RVC 依赖,解决了所有问题。

第一步:下载 RVC 项目,并解压。

第二步:下载 Python 3.10,并安装,记得添加环境变量。下载地址:https://www.python.org/downloads/release/python-3100/,滑到底,选择 Windows install 下载,根据自己的电脑位数选择。

第三步:安装 C++ 编译环境,我选择的是直接安装 Visual Studio 2019 的 C++ 桌面编译环境,可自行只安装 C++ 14 以上的编译环境。下载地址:https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/

第四步:启动 CMD 并进入 RVC 解压目录,键入以下命令。

 py -3 -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

耐心等一会,全程无报错,最终显示 Successfully xxxx,即成功安装。但这还没完事。

第五步:继续在 CMD 执行命令py -3 gui.py,会英文提示缺少 XXX 模块,我们针对缺失的模块特定安装即可。好像缺失三四个,自行安装下就可以了。

第六步:最后在 CMD 执行命令py -3 gui.py,即可成功启动。


需要注意的是,如果你的系统 GPU 是 RTX 系列,则有几个模块需要安装指定版本,执行下面命令卸载之前安装的版本:

py -3 -m pip uninstall torch torchvision torchaudio

在执行下面命令安装特定版本:

py -3 -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117


至此,环境安装完毕,成功启动 gui.py,打开了 RVC  的 GUI 调试界面。

变声器?社工?hvv时可以试试,基于 AI 的 RVC 变声器安装踩坑记录。

三、RVC 调试

RVC 调试细枝末节比较多,稍有差错就是报错,大家多注意吧。


1.响应阈值

尽量拉满 -60,即使有比较大的环境噪音,也可以通过 nvidia broadcast 的 ai 降噪处理噪音,独立声卡可以接入机架的降噪插件(推荐rx10 denosie yyds),效果更好,同时开多个ai处理软件,对显存要求比较高,尽量8gb以上,不然打游戏都会卡的。需要注意的是:开了 nvidia broadcast 后,音色会发闷些,无法达到完美的效果。

2.音调设置

男转女一般在 12,在这附近左右调整,分别可以变粗或变细,选好之后就不要动了。

女转男一般在 -12左右。

3.index rate

这东西左边是接近底模的音色,右边是接近模型的音色。如果调高不影响口齿,可以略微调高,一般 0.2-0.5 都是可以的。如果装备的模型效果不理想,尽量往左拉。

4.采样长度

尽量调低一些,只要不卡,0.3 以上都可以。13600k 为例一般是 0.8 左右比较稳定,0.6 就容易出爆音。

5.淡入淡出长度

可以理解为尾音的长短,小了声音清脆但容易断字,大了声音连贯但音色会糊。根据自己听感来。

6.额外推理时长

一般 2 种选择,当采样长度比较大的适合,可以保持采样长度一样的数值,但是说话会比较干,没什么拖音。

另外一种选择,可以考虑公式:采样长度 + 额外推理时长 =2 这个公式,一般效果效果还不错,说话连续性更强。

推理这个参数有点像压限器的释放时长,如果你想你的尾音拖的比较长就拉到1.5左右,如果想清爽点,吐字如机关枪,那就往低了拉,一般到采样长度左右就行。


【炼石计划@渗透红队攻防】

点我获取详细介绍

是一个专注渗透红队攻防的内部圈子,多维度分享和红队攻防息息相关的内容,包括但不限于 Java 代码审计,PHP 代码审计,Web进阶渗透,红队攻防实战总结,漏洞复现等内容。2023年核心主题是【红队攻防一百篇】,传递一手的红队攻防,黑灰对抗,护VV等实战经验,第一时间总结,第一时间反馈,让大家第一时间学习吸收到最新的技术,打破信息传递壁垒。       

当然,内部圈子不仅有【渗透红队攻防实战 100 篇】的飞升期的武功秘籍,还有【Java安全基础 15 篇(已完成)】、【JavaWeb代码审计基础 15 篇(已完成)】、【PHP之WEB安全基础 13 篇(已完成)】、【Python基础 8 篇(已完成)】、【漏洞复现 50 篇(分享中)】、【CMS系统代码审计 10 套- 20 篇(分享中)】、【内部 CS 插件】等筑基期的武功秘籍。总之这里从基础到进阶都所有涉及,最终在实战秘籍中提升自己!


变声器?社工?hvv时可以试试,基于 AI 的 RVC 变声器安装踩坑记录。

备注:原创文章与知识星球内容同步更新,后续计划将星球人员逐步迁移到帮会中。



原文始发于微信公众号(闪石星曜CyberSecurity):变声器?社工?hvv时可以试试,基于 AI 的 RVC 变声器安装踩坑记录。

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年7月5日19:13:22
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   变声器?社工?hvv时可以试试,基于 AI 的 RVC 变声器安装踩坑记录。http://cn-sec.com/archives/1855471.html

发表评论

匿名网友 填写信息