语音欺骗检测研究与分析

admin 2024年10月13日01:26:35评论156 views字数 10480阅读34分56秒阅读模式

摘 要:语音作为一种常用的生物特征,往往会被用于通过性安全认证。随之而来的就是ASV 系统安全问题,攻击者会试图通过伪装成另一个已注册说话人的声音来通过 ASV 系统的检测。随着 AI 的发展,使用语音合成和语音转换等手段后的欺骗攻击都可以呈现出其他特定说话人的高质量、可信的语音信号,从而对 ASV 构成威胁。与欺骗攻击相对应,语音欺骗检测是一种识别防御技术,国内外相关人员进行了最新的研究。基于此,介绍了最前沿挑战的欺骗检测技术,并对这些技术的局限性和未来进行分析。

内容目录:

1 语音欺骗攻击

2 语音欺骗检测

2.1 语音欺骗检测简介

2.2 语音欺骗检测流程

2.3 语音欺骗检测的声纹特征

3 语音欺骗检测挑战赛

3.1 ASVspoof 2019 挑战赛

3.2  ASVspoof 2021 挑战赛

3.3  SASV 2022 挑战赛

4 语音欺骗检测方法比较与分析

4.1 语音欺骗检测方法比较

4.2 语音欺骗检测方法分析

5 结 语

随着人工智能技术的发展,生物识别技术彻底改变了我们的个人识别方法,并在维护个人、国家和全球安全方面发挥了至关重要的作用。目前,指纹、人脸和声纹等常见的生物特征已经被大量应用。例如我们日常生活中使用的某些智能手机、智能穿戴设备就配备了声纹解锁功能。以上功能全部基于自动说话人验证(Automatic Speaker Verification,ASV) 系 统,ASV 系统通过对输入的语音进行二分类判别,判断该语音来源的用户是否为已注册用户。通过性安全认证系统往往会带有安全问题,由于ASV 通常用于电话或其他无人看管、无人监督或面对面接触的分布式场景,并因为语音这一生物特征的特殊性和常见性,语音比其他生物特征信号更容易受到恶意干扰或操纵,致使识别系统受到攻击 。攻击者对识别系统的输入特征进行模仿、转换、篡改,就极有可能在生物识别系统中“蒙混过关”。中国人民银行发布的《移动金融基于声纹识别的安全应用技术规范》中明确说明,移动金融领域中声纹识别技术要能够抵御语音欺骗。2020 年 12 月,清华大学人工智能研究院、AIIA- 得意音通声纹技术联合实验室和中国电信股份有限公司研究院联合发布了《中国声纹识别产业发展白皮书 2.0》,介绍了目前国内声纹识别技术发展的 12 大趋势。这些都表明了语音欺骗检测是未来语音处理方面研究的一个热点、重点问题。因此,为保障安全性,语音识别系统需要具备能够准确判断输入生物特征的能力,为了解决这一难题,语音欺骗检测技术由此诞生。这对研究学者们来说是一个挑战,同时也引起了国内外学者极大的兴趣。

本文介绍了语音欺骗检测的研究现状,包括语音欺骗方法、研究数据集和评价指标,着重阐述了国内外针对语音欺骗检测的最新挑战赛的研究进展,并对其中的具体方法进行分析。最后,对语音欺骗检测技术的局限性和未来发展进行分析。

语音欺骗攻击

语音欺骗攻击是指攻击者使用某些语音欺骗攻击手段生成一段新的语音或将某段语音伪装成已注册说话人的声音,进而将其输入到ASV 系统,以达到混淆通过 ASV 系统检测的目的。ASV 系统 是一个通过性安全识别系统,识别输入的语音是否为特定人的语音。自动说话人验证分为两个步骤,如图 1 所示。

语音欺骗检测研究与分析

图 1 语音欺骗检测系统

语音欺骗方法最早可追溯到 20 世纪六七十年代,语音欺骗的方法包括语音模仿、语音回放、文本到语音合成(Text To Speech,TTS)、语音转换(Voice Conversion,VC)。目前语音欺骗攻击方法可分为两大类:逻辑访问(Logical Access,LA)攻击和物理访问(Physical Access,PA)攻击。一般将使用语音合成方法的攻击归为 LA 攻击,包括 TTS 和 VC;通过语音回放使用录音设备进行重放攻击,属于 PA 攻击。

语音模仿是指攻击者模仿目标说话人的声音,使自己的声音尽量与目标说话人的声音相似,从而让语音识别系统将攻击者的声音误认为注册说话人的声音 。语音回放是指使用录音设备录制目标说话人的语音,然后将录音输入到 ASV 系统 。使用不同录音设备和播放设备的录制声音对 ASV 系统的攻击效果也不同 。TTS 是一种将文本文字生成一段与特定说话人声音非常相似的语音的技术。TTS 主要由 2 个阶段组成:文本分析阶段和波形生成阶段。残差网络、生成对抗网络等深度神经网络技术的进步提高了转换后的语音质量 。虽然 VC 与 TTS 同属于语音合成攻击,但两个技术还有一些不同。VC 是将一个人的声音转换为另一个人的声音,这也就表示 VC 系统的输入是语音信号,而不是一段文本文字。

语音欺骗检测

2.1 语音欺骗检测简介

语音欺骗攻击与语音欺骗检测是矛和盾的关系,语音欺骗检测是为了进行语音的鉴伪。

2013 年后语音欺骗检测才得到人们关注,经过两年筹备,第一次 ASVspoof 挑战赛  在德国德累斯顿举行,语音欺骗检测研究与分析2015 挑战赛对 TTS 和 VC等语音合成方法的欺骗攻击进行检测 。2017年在瑞典斯德哥尔摩举行的语音欺骗检测研究与分析 2017 挑战赛 则重点关注语音回放欺骗攻击。

2019 年之后的挑战赛都关注了多种语音攻击方式,如 语音欺骗检测研究与分析 2019 挑战赛同时关注了TTS、VC 和语音回放的欺骗攻击方式 ,在语音合成攻击检测挑战中收到 49 份挑战结果,在语音回放攻击检测挑战中收到 51 份挑战结果 。2021 年 Interspeech 会议在捷克布鲁诺举行,语音欺骗检测研究与分析2021 挑战赛在关注 TTS、VC 和语音回放 欺骗方法的基础上,还关注了深度伪造(Deep Fake,DF)语音欺骗攻击方法,DF 任务类似于 LA 任务(包括压缩数据),但没有说话人验证,这次挑战收到 95 份研究结果。最近的 SASV Challenge 2022 挑战赛  同时关注了ASV 系统和反措施(Counter Measure,CM)系统,SASV 将 语音欺骗检测研究与分析 对 CM 的关注点扩展到对集成系统的考虑上,其中 CM 和 ASV 子系统都经过优化来提高系统的可靠性。这次的挑战赛吸引了 53 个注册团队,收到了 23 个提交结果。其中,在 SASV Challenge 2022 挑战赛上,来自“昆山杜克大学 -OPPO”联合实验室的团队取得了全球第 2 名的成绩 。但是现在还没有一种单一的网络模型能够同时满足自动说话人识别和语音欺骗联合优化检测。

2.2 语音欺骗检测流程

一个语音欺骗检测的流程如图 1 所示。由于输入 ASV 系统的语音的欺骗方法未知,传统的语音欺骗检测系统无法同时检测 LA 和 PA 两种攻击。将 CM 与 ASV 系统进行串联使用,在语音输入到 ASV 系统之前,对其进行识别,区分这段语音是真实的还是欺骗的,只有真实的语音才能够输入到ASV系统中进行下一步验证。

2.3 语音欺骗检测的声纹特征

1962 年,Bell 实验室的 Kersta 等人 发表了一种基于时频谱图的说话人识别方法,正式提出“声纹”(Acoustic Fingerprint)这一概念。语音欺骗检测与自动说话人识别都可以归属为二分类问题,语音信号经过预处理,变成具有固定时间间隔的音频帧,然后从这些音频帧中提取出具有固定维度的特征,这些特征将被输入到深度神经网络中。

语音欺骗检测与说话人识别所使用的声纹特征也有所不同,比如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC),虽然能够较为准确地描述语音中的特征信息,但不能很好地区分真假语音,因此 MFCC 成为说话人识别系统中的常用特征,但在语音欺骗检测系统中的效果不理想。除此之外,常用的声纹特征还有原始频谱(Raw spec)、梅尔频谱(Mel spec)、 线 性 频 率 倒 谱 系 数(Linear Frequency Cepstral Coefficient,LFCC)、单频滤波倒谱系数(Single Frequency Filtering Cepstrum Coefficient,SFFCC)、感知线性预测系数(Perceptual Linear Predictive,PLP)、 常 数 Q 倒 谱 系 数(ConstantQ Cepstral Coefficients,CQCC)、长期变量 Q 变换频谱(Long-term Variable Q Transform,L-VQT spec),这些声纹特征提取步骤如图 2 所示。

语音欺骗检测研究与分析

图 2 声纹特征提取步骤

语音欺骗检测挑战赛

每一届语音欺骗检测挑战赛都会提供专门的数据集以及评价指标供研究者们使用。参赛团队注册并参加挑战,每个团队可以报名参加一个或两个挑战场景。最终,每个团队应提交一份详细说明策略方法(功能和分类器等)和相关技术的系统描述文件以及对应某个挑战场景的分数文件。

3.1 语音欺骗检测研究与分析 2019 挑战赛

ASVspoof 2015 的任务是设计出能够区分使用 TTS 或 VC 系统产生的真实语音和欺骗性语音的对抗解决方案;语音欺骗检测研究与分析2017 挑战的重点是设计旨在检测重放欺骗攻击的对策 。为了应对两类语音欺骗攻击手段,语音欺骗检测研究与分析2019 扩展了之前的挑战。

语音欺骗检测研究与分析 2019 是第一个专注于全部 3 种主要攻击类型的挑战,即源自 TTS、VC 和语音重放欺骗的攻击。相对于 2015 年的改进,包括增加使用了最新的 TTS 和 VC 技术,这些技术利用了这 4 年在这两个领域取得的重大进展。相对于 2017 年的改进,使用了更加可控的评估设置来评估重放欺骗攻击对策。虽然 2017 年的挑战是根据真实回放的欺骗攻击的记录创建的,但使用不受控制的设置使得结果比较难分析。此次语音欺骗检测研究与分析2019 挑战在语音合成攻击检测挑战中收到 49 份挑战结果,在语音回放攻击检测挑战中收到 51 份挑战结果。

3.1.1 语音欺骗检测研究与分析2019 数据集

语音欺骗检测研究与分析2019 LA 数据集基于 VCTK 的标准多说话人语音合成数据集而生成。从 107 位说话者(46 位男性,61 位女性)中收集了真实的语音,欺骗性语音是使用多种不同的欺骗算法从真实数据中生成的。2019 LA 训练数据集包括来自 20 位说话者(8 位男性,12 位女性)的真实和欺骗性语音,每个欺骗语音是根据 2 种语音转换和 4 种语音合成算法(A01~A06)之一生成的;测试集包括从多个说话者收集的一组无法预测真实或欺骗性的语音,大约有8万次试验,测试数据集大小约为 4 GB。测试集的记录条件与开发数据集完全相同,欺骗语音是根据各种难以预测的欺骗算法(A07~A19)生成的,但它们是生成开发数据集的欺骗算法的变体。

PA 考虑了在传感器级别执行的欺骗攻击,这意味着真实的和欺骗的语音都在采集之前通过物理空间传播,因此这种情况下的欺骗攻击被称为重放攻击。PA 训练和开发集是根据总共27 种不同的声学配置录制的,并有 9 种不同的回放配置。与语音合成攻击场景相同,测试集在说话人方面与其他两个集合是不相交的,大约有 13.5 万次试验。

如表 1、表 2 所示,与 2015 年和 2017 年版本类似,2019 年的数据集包含使用不同技术(TTS 和 VC 算法)和回放场景生成的训练、开发和测试集。

表 1  ASVspoof 2019 LA 数据集详细信息

语音欺骗检测研究与分析

表 2  ASVspoof 2019 PA 数据集详细信息

语音欺骗检测研究与分析

3.1.2 ASVspoof 2019 评价指标

(1)等错误率(Equal Error Rate,EER)。EER 是评估 ASV 和其他生物识别系统准确性的标准指标 ,2019 挑战中将其作为次要评价指标。参与者需要为每个测试集记录一个单一的实值检测分数,较高的检测分数表明更有可能观察到真实的人类语音,而相对较低的分数则表明更大的欺骗攻击可能性。给定特定系统的所有检测分数,首先计算错误拒绝率(False Rejection Rate,FRR) 和 错 误 接 收 率(FalseAcceptance Rate,FAR),分别表示出阈值 s 处的语音欺骗检测研究与分析

语音欺骗检测研究与分析

式中:语音欺骗检测研究与分析分别为 s 的单调递减和递增函数。等错误率(EER)对应于两个检测错误率重合的阈值语音欺骗检测研究与分析语音欺骗检测研究与分析

(2)串联检测成本函数(Tandem Detection Cost Function,t-DCF)。语音欺骗检测研究与分析2015 年和 2017 年挑战侧重于独立系统的开发和评估,语音欺骗检测研究与分析2019 首次采用串联检测成本函数(t-DCF)这一以 ASV 为中心的新评价指标,而将 EER 作为次要指标。语音欺骗检测研究与分析 2019 采用的 t-DCF 基本形式如下:

语音欺骗检测研究与分析

语音欺骗检测研究与分析如式(1)、式(2)所示。常数语音欺骗检测研究与分析由 t-DCF 成本、Priors 和 ASV 系统检测误差决定:

语音欺骗检测研究与分析

式 中:语音欺骗检测研究与分析分别为 ASV 系统错误拒绝目标说话人和错误接收非目标说话人的成本(cost);语音欺骗检测研究与分析分别为 CM 系统错误拒绝真实语音试验和错误接受欺骗语音试验的成本。此外,预先设定了目标语音欺骗检测研究与分析非目标语音欺骗检测研究与分析和欺骗语音欺骗检测研究与分析类的先验概率,其中语音欺骗检测研究与分析成本和先验概率预先固定为表3 中所示的值。最后,语音欺骗检测研究与分析为固定ASV 系统在特定ASV 检测阈值下的检测错误率。其中,语音欺骗检测研究与分析语音欺骗检测研究与分析分别为传统的未命中率(被拒绝的目标用户的比例)和误报率(被接受的非目标用户的比例);语音欺骗检测研究与分析是针对 ASV 系统的欺骗样本的未命中率(被 ASV 拒绝的欺骗样本的比例)。

表 3  ASVspoof 2019 中预设的 t-DCF 成本函数参数

语音欺骗检测研究与分析

原始 t-DCF 可能难以理解。通常将归一化的 t-DCF 定义为:

语音欺骗检测研究与分析

式中:语音欺骗检测研究与分析是定义为语音欺骗检测研究与分析的默认成本。通过分别在式(3)中设置语音欺骗检测研究与分析语音欺骗检测研究与分析(CM 阈值 s → +∞)和语音欺骗检测研究与分析(CM 阈值 s → -∞)得到语音欺骗检测研究与分析

在前一种情况下,标准化的 t-DCF 写为:

语音欺骗检测研究与分析

其中语音欺骗检测研究与分析在后一种情况下,标准化的 t-DCF则写为:

语音欺骗检测研究与分析

其中语音欺骗检测研究与分析权重 α 或 β 表示两个错误率分别在t-DCF中所占的比例。与过去两个挑战版类似,语音欺骗检测研究与分析2019 并不关注阈值设置(校准),而是将每个评估的 CM 的阈值固定为与完美校准相对应的最佳值。也就是说,挑战排名将基于最小标准化 t-DCF,定义为:

语音欺骗检测研究与分析

其中语音欺骗检测研究与分析是使用 ground truth从测试集确定的最佳阈值。

3.2  语音欺骗检测研究与分析2021 挑战赛

ASVspoof 2021 是双年度挑战系列的第四届挑战,为提高 CM 系统的泛化性,本次挑战除了继续关注 LA、PA 任务,还引入了一项涉及深度伪造语音检测的新任务。LA 任务是基于语音欺骗检测研究与分析2015 和 语音欺骗检测研究与分析 2019 LA 任务,并考虑到电话场景。2019 年 LA 任务建立在 2015 年第一版的基础上,考虑了最先进的神经网络和声学波形模型,最终,此次挑战收到 95 份挑战研究结果。

3.2.1  语音欺骗检测研究与分析 2021 数据集

语音欺骗检测研究与分析2021 通过考虑电话编码和传输进 一 步 扩 展 了 挑 战,语音欺骗检测研究与分析2021 没有发布新的训练或开发数据集 ,挑战者继续使用语音欺骗检测研究与分析2019 数 据 集 的 训 练 和 开 发 集。新 的LA 和 PA 测试集包括从与 ASVspoof 2019 测试集对应的相同 48 位说话者(21 位男性,27 位女性)收集的语音记录。DF 任务的数据不仅来自VCTK 基础语料库,还来自其他(未公开的)语料库。

语音欺骗检测研究与分析2021 LA 测试数据集包含针对每个扬声器的新试验以及真实电话系统引入的编码和传输伪像。语音欺骗检测研究与分析 2021 LA 测试数据包括通过 IP 语 音(VoIP)和公共交换电话网络(PSTN)在内的各种电话系统传输的真实和欺骗性语音。LA 测试集欺骗试验来自 13 种不同的语音合成和语音转换欺骗攻击算法之一(A07~A19),但除了攻击算法,欺骗的和真实的试验数据都使用 7 种不同的编解码器中的一种作为传输结果,表 4 中列出了 7 个评估条件,带下划线的评估条件存在于测试集中,但不在训练集中。

表 4  ASVspoof 2021 LA 数据集评估条件

语音欺骗检测研究与分析

语音欺骗检测研究与分析2021 PA 测试集包括与语音欺骗检测研究与分析2017 数据集类似的真实和重放样本,但具有与语音欺骗检测研究与分析2019 PA 数据集类似的更好的控制设计。真正的试验数据在真实的物理空间中呈现给 ASV 系统,而重放攻击被获取,然后使用不同质量的设备重新呈现。因此,PA 测试数据集包含来自环境和回放设备的混响和附加噪声。真实语音来自 VCTK 语音库,使用具有合理平坦频率响应的高质量扬声器将原始语音呈现给ASV 系统(而不是由真正的说话者发出)。

DF 测试数据集展示了音频编码和压缩伪影,还包括在不同域中捕获的数据。DF 测试数据集是使用常用媒体存储的、不同有损编解码器处理的真实和欺骗的语音集合。音频数据被编码,然后被解码以恢复未压缩的音频,该过程引入了依赖于编解码器类型和配置的失真。测试集取自语音欺骗检测研究与分析2019 LA 测试集以及其他来源,其中包括使用 100 多种不同的欺骗算法生成的欺骗攻击。与 LA 类似,表 5 列出了 9 个评估条件,带下划线的评估条件出现在测试集中,但不在训练集中 。

表 5 语音欺骗检测研究与分析2021 DF 数据集评估条件

语音欺骗检测研究与分析

3.2.2  ASVspoof 2021 评价指标

(1) 等 错 误 率(EER)。DF 任务的主要指标是等错误率(EER)。由于 DF 任务不包括ASV 系统,因此该任务使用不需要指定代价和先验概率参数的、能很好反映 CM 系统区分真实和欺骗语音能力的通用 EER 指标。

(2)串联检测成本函数(t-DCF)。语音欺骗检测研究与分析2021 采用两种不同的性能指标 。LA 和 PA 任务的主要指标是串联检测成本函数(t-DCF)。它评估 CM 和 ASV 组合(串联)性能,将 CM视为放置在未受保护的 ASV 系统之前的“真实 /欺骗门”。该指标反映了贝叶斯的风险,可以通过选择不同的检测成本和类别先验参数来针对不同的应用进行调整。在语音欺骗检测研究与分析2019 中使用的 t-DCF 指标在 2021 挑战中进行了简化,以包含更少的参数,语音欺骗检测研究与分析2021 中使用的指标形式如下:

语音欺骗检测研究与分析

式中:语音欺骗检测研究与分析分别为 CM 系统检测阈值为 τ 时的错误拒绝率和错误接收率;语音欺骗检测研究与分析语音欺骗检测研究与分析为成本函数参数。这些参数不仅取决于预定义的成本和先验参数,还取决于 ASV 性能;语音欺骗检测研究与分析语音欺骗检测研究与分析取决于 ASV 在真实测试中的性能,而语音欺骗检测研究与分析随 ASV 系统欺骗误报率线性增加。对于 LA 和PA 任务(见表 6)以及它们各自的训练和测试集,参数 语音欺骗检测研究与分析语音欺骗检测研究与分析是不同的。语音欺骗检测研究与分析2019 挑战中式(5)的 语音欺骗检测研究与分析项(ASV 下限)被丢弃,而语音欺骗检测研究与分析2021 挑战保留了语音欺骗检测研究与分析从式(5)中可以看出,ASV 下限是使用无差错 CM(没有遗漏或误报)获得的 t-DCF,它反映了由 ASV 系统引起的错误。

与 2019 挑战中的 t-DCF 类似,在 2021 挑战中,也将其标准化为式(10)所示:

语音欺骗检测研究与分析

表 6  ASVspoof 2021 挑战 LA 和 PA 任务的 t-DCF 参数

语音欺骗检测研究与分析

3.3  SASV 2022 挑战赛

最新的 SASV 2022 挑战与之前的 语音欺骗检测研究与分析系列挑战不同,最小串联检测成本函数(t-DCF)反映了欺骗攻击和CM 对 ASV 系统的影响,但语音欺骗检测研究与分析挑战系列侧重于为固定的ASV 系统开发 CM,然而当 CM 和 ASV 子系统都得到优化时,可以为联合检测验证系统提供更好的性能。SASV 挑战将 语音欺骗检测研究与分析 对 CM 的关注扩展到集成系统,其中 CM 和 ASV 子系统都经过优化以提高可靠性,图3显示了SASV 2022挑战的具体内容。

语音欺骗检测研究与分析

图 3  SASV 2022 挑战的具体内容

SASV 2022 挑战的目标是通过提供一个框架来支持优化协同运行的 CM 和 ASV 系统,并最终促进单一或集成系统。在这个方向上的先前工作较少,因此该挑战的目标是:(1)弥合 ASV研究和 CM 系统研究之间的差距以及相应研究团队之间的差距;(2)扩展 ASV 场景并将欺骗攻击考虑在内;(3)促进集成模型向集成 SASV 解决方案的发展,并使该解决方案能够在扬声器和反欺骗嵌入上运行;(4)鼓励开发能够区分不同说话人所说的话语以及欺骗性话语的单一模型。

该挑战目前的研究现状如图 4 所示,此次挑战允许参赛者使用单一的或集成的模型,并希望参赛者的模型在识别说话人身份的同时还能检测出该语音是真实的还是虚假的。2022 年的挑战使用 语音欺骗检测研究与分析2019 protocols,虽然 SASV协议 利用 语音欺骗检测研究与分析2019 LA 数据,但它们与语音欺骗检测研究与分析挑战赛的参与者使用的协议不同,它们不是 CM 协议,而是 ASV 协议,更具体地说,是 SASV 协议(协议格式见表 7)。后者涉及 3种类型的实验:(1)注册说话人产生的真实的、目标话语;(2)非注册说话人产生的真实的、非目标话语;(3)注册说话人的欺骗、非目标话语,包含合成或转换的语音。该挑战提供不相交的协议,以支持挑战参与者对 SASV 解决方案的开发和测试。此次的挑战赛收到了 53 个注册团队提交的 23 个研究结果。

语音欺骗检测研究与分析

图 4  SASV 2022 挑战研究现状

表 7  SASV 2022 协议格式

语音欺骗检测研究与分析

3.3.1  SASV 2022 数据集

SASV 2022 挑战赛的参与者可以使用以下数据集:语音欺骗检测研究与分析2019 LA 训练数据集;语音欺骗检测研究与分析2019 LA 开发数据集;VoxCeleb2 数据集。由于语音欺骗检测研究与分析2019 LA 数据集提供了真实说话者标签,因此它也可用于 ASV 系统的培训和开发。VoxCeleb2 数据集是为 ASV 实验而设计的,它不包含欺骗数据。VoxCeleb2 数据集是通过抓取名人采访的在线视频收集的,是从 150 480 个独特的视频中提取的,平均个人话语长度为 7.8 s。VoxCeleb2 数据集的开发数据集用于 ASV 子系统的训练;语音欺骗检测研究与分析 2019 LA 数据集在 2019挑战中已经进行过介绍,不再赘述。语音欺骗检测研究与分析2019 LA 训练集可用于训练 CM 子系统,也可与VoxCeleb2 数据集结合使用以进行 SASV 研究。

3.3.2 SAVS 2022 评价指标

SASV 2022挑战也采用EER作为评价指标,此次挑战使用经典 EER(SASV-EER)作为主要指标来评估 SASV 性能,两个额外的 EER 评估值作为次要指标(评价指标如表 8 所示)。

说话人验证 EER(SV-EER)涉及目标试验和真实的非目标试验的组合,而欺骗 EER(SPF-EER)涉及目标试验和欺骗的非目标试验的组合。

表 8  SASV 2022 挑战评价指标

语音欺骗检测研究与分析

语音欺骗检测方法比较与分析

4.1 语音欺骗检测方法比较

表 9 将 语音欺骗检测研究与分析 2019、2021 两次语音欺骗检测挑战赛共计 7 个赛道中的前 5 名所使用的特征和分类器进行总结,以供研究学习。

4.2 语音欺骗检测方法分析

语音欺骗检测分为基于传统机器学习(ML)分类器的方法和基于深度学习的方法。对表 9中的方法进行简要分析。因为 2021 挑战中提交的检测技术较为新颖,为此重点分析 2021 挑战中的检测方法。

由于 语音欺骗检测研究与分析2021 挑战 LA 任务考虑了信道效应等噪声对语音信号的影响,导致本次 LA挑战总体结果不如 2019 年 LA 挑战。此次挑战排名第一的团队将循环神网络与残差网络相结合,利用编解码增强和修剪音频的数据增强方法来训练多个子系统,其中两个子系统基于原始波形特征、频谱图特征和LightCNN(LCNN)、ResNet 两个并行分类器,它们被转发到 LSTM,分数通过权重进行相加。此外,另一个子系统使用 SincNet 前端和 LSTM 后端,该子系统的输出分数进一步与上面的加权平均分数融合。排名第二的团队所用数据增强方法是将输入音频使用预加重和 a-law 算法进行处理,将 LFCC 特征从处理后的音频中提取出来并输入到两个基于 ResNet 的分类器中,再计算两个分类器输出分数和的平均值。

表 9  ASVspoof 2019、2021 挑战赛方法比较

语音欺骗检测研究与分析

续表

语音欺骗检测研究与分析

语音欺骗检测研究与分析 2021 PA 攻击检测挑战结果并不是很理想,相同排名参赛队伍的 EER 指标相较于另外两个检测任务都是比较差的,这也说明了语音回放检测的难度确实比较大,尤其是录音环境较好的情况下,录音与真实语音难以区分。排名第一的团队使用一个基于高斯混合模型(GMM)和变分自动编码器(VAE)的分类学习框架,通过房间模拟和两次参数分别为 0.9和 1.1 的速度扰动来进行数据增强。该方法使用的声学特征是对数频谱图,将对数频谱图输入到 WORLD、HifiGAN、MelGAN 神经声码器得到过滤后的频谱图,再将原始频谱图和过滤后的频谱图通过时间轴进行平均操作后用时间频率来表示。一个 GMM 和一个 VAE 使用时间平均频谱图进行训练,而另一个 GMM 使用原始对数频谱图和过滤后的频谱图进行训练,两个分类器的输出分数以相同权重进行相加。除此之外,Witkowski 等人 采用倒置 MFCC(IMFCC)、线性 预 测 倒 谱 系 数(LPCC)、LPCCres、CQCC、MFCC 和倒谱特征来训练 GMM 进行重放攻击检测。Monteiro 等人 [29] 分别基于针对重放和克隆攻击的两个单独训练模型的预测来训练模型,提出了端到端 LCNN 集成模型,虽然这种方法优于 ASVspoof 基线模型 ,但增加了特征计算成本。

虽 然语音欺骗检测研究与分析2021 挑 战 首 次 进 行 深 度 伪造(DF)语音欺骗检测,但前五名的挑战结果比 PA 任务的结果还要好一些。DF 任务排名第一的团队与 LA 任务的第一名是同一个队伍,这里不再陈述。排名第五的团队使用单一的网络和新型时频变换算法——长期变量 Q 变换,而且还得到了比较理想的结果。该团队使用基于CondenseV2Net 的卷积网络,利用从长期变量Q 变换(L-VQT)导出的对数功率谱进行训练,在此之前,训练数据通过 mp3、m4a、wma 方法增强并修剪为 4 s 的块。

结 语

本文介绍了国内外针对语音欺骗检测的最新挑战的研究进展、研究数据集、评价指标等。对语音欺骗检测方法进行归纳,并对其中的具体方法进行分析。

目前最先进的语音欺骗检测方法已经可以取得很高的准确性和较低的等错误率,但是仍然有一些方面需要进一步研究。语音欺骗检测研究与分析2021中的 LA 挑战考虑了在有信道效应的干扰、噪声、混响的场景,希望通过挑战提高系统的鲁棒性。SASV 2022 挑战的目标是希望开发出能够满足同时检测多种攻击方式,泛化性能好,并且能够欺骗检测和说话人验证联合检测的系统。ASVspoof和 SASV 可能会在未来合并以进行共同评估。

现有的欺骗检测和说话人验证联合检测模型大多是集成的模型,这种集成的模型存在网络层数多,复杂度高,计算量大等缺点;或者是采用后端融合方法的网络模型。以上两种模型训练量都很大,不适用于小型设备,如手机等可以用语音登录验证的设备。因此,未来可以将语音欺骗联合检测技术、语音欺骗检测和说话人验证联合检测技术与知识蒸馏等方法结合,进行知识转移、模型压缩,降低网络模型的复杂度。未来也希望能够使用单一网络模型解决联合优化检测的问题。

除此之外,非接触多模态技术正在蓬勃发展,疫情期间,在门禁、闸机等多种场景下都提出了非接触需求。语音欺骗检测、语音识别可以与其他生物识别技术如人脸、指纹识别技术相融合,多模态技术融合后的产品形态将会明显提升用户使用体验以及产品的安全性。

引用格式:夏玮江 , 彭海朋 , 李丽香 . 语音欺骗检测研究与分析 [J]. 信息安全与通信保密 ,2023(3):21-35.

作者简介 >>>

夏玮江,男,博士研究生,主要研究方向为语音处理和深度学习;
彭海朋,通讯作者,男,博士,教授,主要研究方向为压缩感知、信息安全、网络安全、复杂网络和动态系统控制等;
李丽香,女,博士,教授,主要研究方向为压缩感知、复杂网络、群体智能、网络安全等。

选自《信息安全与通信保密》2023年第3期(为便于排版,已省去原文参考文献)

语音欺骗检测研究与分析

原文始发于微信公众号(信息安全与通信保密杂志社):语音欺骗检测研究与分析

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年10月13日01:26:35
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   语音欺骗检测研究与分析https://cn-sec.com/archives/1911704.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息