2023年5月24日14:09:30评论261 views字数 2795阅读9分19秒阅读模式

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

仅需 3 秒语音就能完美复制整个人的口音？在爆火的生成性人工智能GPT 的背景下，技术被滥用的风险，对普通人造成的安全隐患和威胁，绝对不容低估。根据 McAfee 公布的最新报告，基于人工智能（AI）的语音诈骗日益猖獗，在接到诈骗电话的群体中，77% 的人会导致经济损失。

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

那么，不法分子是如何利用 AI 技术克隆用户语音的？

声纹识别是一项根据语音波形中所蕴涵的说话人信息、自动识别说话人身份的技术。近年来，金融、电信、保险等业务实现线上化普及，生物特征识别技术在身份认证场景中发挥重要作用。与人脸、虹膜、指纹等生物特征相比较，声纹具备成本低、易接受、难仿造等数据优势，现已在金融、公安等领域的登录、支付、业务核身、反诈、远程身份认证等诸多场景中广泛应用，特别是基于电信网络的身份识别，如电话银行、电话炒股、电子购物等。

声纹认证广泛应用的背后，则是规模庞大、乱象丛生的声纹认证市场。市面上 AI 语音克隆的免费工具和收费工具都唾手可得，许多工具只需要基本的经验和专业知识即可使用。其中有工具甚至只需三秒钟语音就足以生成匹配度达 85% 的克隆语音。克隆语音越准确，网络犯罪分子诱骗受害者交出钱财或采取其他所要求的操作的可能性就越大。

从声纹认证的灰黑产业链来看，黑产团伙通过网络渠道获取到个人的真实信息，并结合 AI 技术手段或工具克隆用户语音，绕过声纹活体检测等校验机制，欺骗声纹识别系统，从而实现账号及信息窃取、电信诈骗等业务违规目的。

声纹认证安全漏洞的攻击利用方式

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

声纹识别技术在某些方面虽然比传统的身份验证技术更加安全，但仍然存在一些安全漏洞和攻击利用方式：

1. 录音攻击：通过录制目标用户的声音，使用录音欺骗声纹识别系统，获得未经授权的访问权限。

2. 语音合成攻击：使用语音合成技术生成与目标用户相似的声音，使用这些声音欺骗声纹识别系统，获得未经授权的访问权限。

3. 声音变形攻击：使用声音变形技术改变自己的声音，欺骗声纹识别系统，获得未经授权的访问权限。

4. 声音重放攻击：使用声音重放技术来重放之前的声音，欺骗声纹识别系统，获得未经授权的访问权限。

5. 语音干扰攻击：使用语音干扰技术干扰声纹识别系统的正常运行，使其无法正确识别声音。

6. 声纹识别算法漏洞：声纹识别算法可能存在漏洞，攻击者可以利用这些漏洞来欺骗声纹识别系统，获得未经授权的访问权限。

7. 数据库攻击：攻击者可以通过攻击声纹识别系统的数据库，获取用户的声纹信息，从而获得未经授权的访问权限。

声纹识别系统绕过技术分析

对抗样本攻击

对抗样本攻击(Counter Sample Attacks)是攻击者故意设计，导致算法模型出现错误输入，通过对样本添加特定扰动信息，干扰模型输出指向错误的结果或输出结果异常，在深度学习算法安全对抗领域有广泛应用和一定通用性。

对抗样本攻击是在一段非目标人物的语音上加上扰动信息，生成对抗语音，使系统将对抗语音识别为目标人物，分为白盒攻击、黑盒攻击和半黑盒攻击。攻击者可以访问目标神经网络的所有信息，包括其架构、参数、梯度等。

攻击者可以充分利用网络信息，精心制作对抗样本。下图展示对抗样本攻击的方法：

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

模型后门攻击

模型后门攻击(Model Backdoor Attack)是指在模型的训练过程中，通过某种方式埋藏后门(Backdoor)，然后通过攻击者预先设定的触发器(Trigger)激发。后门未被激发时，被攻击的模型和正常模型表现类似；当模型中埋藏的后门被攻击者指定的触发器激活时，模型的输出变为攻击者预先指定的标签(Target Label)，从而达到恶意攻击目的。

后门攻击发生在训练过程非完全受控的很多场景，如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型等，对模型安全性造成巨大威胁。目前，对训练数据投毒是实现后门攻击最直接、最常见的方法。

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

样例：

https://github.com/zhaitongqing233/Backdoor-attack-against-speaker-verification

深度伪造攻击

深度伪造攻击(Deep Forgery Attack)指通过各种语音合成、语音转换或高度模仿攻击目标声音的音调、音强、发音习惯等音律特征，对声纹识别系统进行攻击，是一种新型攻击方法，条件限制要求较高，需要利用各种声频处理软件伪造语音，从而模糊声纹识别系统，绕过声纹识别。

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

完成深度伪造的音频，需要克服复杂因素：

保证音频高质量，几乎没有背景噪声；
分阶段传送音频；
避免面对面交谈，只使用语音留言等手段达到目的。

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

绕过声纹识别的技术防御指南

为了规范人工智能发展，2022年12月，《互联网信息服务深度合成管理规定》正式发布，对数据和技术管理规范进行了明确。其中关于授权同意的原则提到，深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，“应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意”。

面对如此猖獗绕过声纹认证的黑产技术，企业可从以下措施进行有效防御：

1.添加多因素认证方式

多因素认证可以降低单一认证方式被攻破的风险。结合其他身份验证方法，如密码、PIN码、面部识别或指纹识别等，以增强安全性。

2.定时更新声纹识别系统

确保声纹识别系统及其算法保持最新，以修复已知的漏洞和提高识别准确性。

3.引入活体检测技术

活体检测可以要求用户在验证过程中进行随机的动作或说出随机的短语，以确保声音来源于实时的人类用户，防止录音攻击和语音合成攻击。

4.语音加密

对用户的声纹数据进行加密，以防止在传输过程中或存储时被截获或篡改。

5.安全存储

确保声纹数据存储在安全的环境中，例如使用安全的数据库和访问控制策略。

6.定期更换验证短语

鼓励用户定期更换用于声纹识别的验证短语，以降低被攻击者模仿的风险。

7.监控和报警

实施实时监控和报警机制，以便在发生异常行为或攻击时及时发现并采取相应措施。

8.定期审计

定期对声纹识别系统进行审计，以确保其安全性和合规性。

对于个人而言，应该增强信息保护意识，不要轻易在不明软件、小程序上泄露自己的语音消息、动态视频等，减少声音被恶意利用的风险。

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

作为中国信通院云大所首轮《金融级声纹反欺诈系统安全能力要求及评估方法》的参编单位，梆梆安全将持续洞察行业技术发展趋势，强化理论研究，推进标准制定，完善评测评估和咨询服务能力，与声纹识别厂商一道，构建共治、共赢、共享的“生物特征识别技术应用生态”。

>连续九年！梆梆安全获评国家信息安全漏洞库技术支撑单位

>首轮金融级声纹反欺诈系统安全能力评测正式启动，梆梆安全深度参编《金融级声纹反欺诈系统安全能力要求及评估方法》

>干货议题 | 声纹与语音识别成为攻防对抗新趋势，梆梆安全赋能生物特征识别应用与信息安全

原文始发于微信公众号（梆梆安全）：仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

仅 3 秒音频就能克隆完整语音？「AI 语音克隆术」原理分析及防御指南！

>连续九年！梆梆安全获评国家信息安全漏洞库技术支撑单位

>首轮金融级声纹反欺诈系统安全能力评测正式启动，梆梆安全深度参编《金融级声纹反欺诈系统安全能力要求及评估方法》

>干货议题 | 声纹与语音识别成为攻防对抗新趋势，梆梆安全赋能生物特征识别应用与信息安全

随着全球紧张局势加剧，针对能源行业的网络威胁激增

俄罗斯黑客借虚假CAPTCHA传播新型恶意软件LOSTKEYS，高价值目标面临数据窃取危机

网安原创文章推荐【2025/5/8】

曹县恶意软件 OtterCookie 升级，新增 Windows、Linux 和 macOS 功能

网络犯罪分子使用CoGUI钓鱼工具包攻击日本

谷歌警告：俄 APT 组织Star Blizzard利用 ClickFix 部署新型 LostKeys 恶意软件

思科发布IOS XE无线控制器中的关键漏洞更新

LockBit勒索软件运营网站遭入侵，内部数据库遭泄露

开始菜单跳转列表失效谜案告破！微软静默修复，详解幕后 CFR 机制利弊

【暗网快讯】20250509期

发表评论

在线咨询

微信