引 言
通过这种方法,自动化测量语音清晰度不仅可以节省医生的时间,使其可以更好地关注其他患者或进行其他医疗活动,还能提供更一致和客观的评估结果。这对于改善言语治疗的效果评估以及促进构音障碍患者的生活质量具有重要意义。
相关工作
总结而言,该文章的创新在于提出了一种基于深度学习和注意力机制的自动语音清晰度评估系统,该系统克服了传统方法中对健康语音数据依赖的限制,并在实验结果中显示出显著的性能优势,这对于未来进一步研究和临床应用具有重要意义。
语音清晰度分类系统
图 1 语音可理解程度分类系统的框图
01
预处理
预处理步骤包括对原始音频信号应用语音活动检测器 (VAD),以去除静音/噪声帧。此阶段背后的基本原理是,理论上,非语音帧不会传达有关清晰度水平的信息。但是,正如前面所述,去除非语音区域会对系统的性能产生负面影响。因此,在两种情况下都进行了实验:有 VAD 和没有 VAD。
02
特征提取
对于参考系统,提取了三组不同的声学特征:(i) 梅尔频率倒谱系数 (MFCC) 及其一阶导数;(ii) 调制谱的平均能量;(iii) 在中提出的特征集。对于基于 LSTM 的系统,使用对数梅尔谱图作为声学特征。以下小节中,将简要介绍所有这些特征。
MFCC 及其一阶导数
MFCC是自动语音和说话人识别以及音频分类任务中最流行的特征提取程序。因此,这些参数已针对所考虑的任务进行了尝试。MFCC 是通过对语音信号的对数梅尔谱图应用离散余弦变换 (DCT) 来逐帧提取的。计算出 MFCC 后,将它们的一阶导数添加到最终的声学向量中。
调制谱的平均能量
这组特征源自语音信号的调制谱,该谱测量了语音信号在不同调制频率下的波动。调制谱包含有关病理性语音中可能出现的几种现象的信息,例如非习惯性的强度和速度变化、不精确的共发音或中断和不流畅。
调制谱是通过使用 Falk 等人提出的方法,从音频信号的频谱时间表示中计算出来。其中,对应于每个声学频带的时间包络用特定的调制滤波器组进行滤波,从而获得所谓的调制能量。最终的特征集由这些能量在所有语音帧上的平均值组成。图 2 显示了两个不同语音记录中调制能量平均值的两个示例,其中横轴和纵轴分别表示调制频率和声学频率。可以观察到,对于病理性说话者,调制能量通常高度集中在低调制频率,如图 2 (b) 中的示例所示,而对于高清晰度说话者,调制能量分布在更宽的频率区域,如图 2 (a) 中的示例所示。
图2 (a)高清晰度和(b)低清晰度语音记录的调制频谱的平均能量。这两句话都对应于“jowls”这个词
Falk 的特征
这组声学特征最初是Falk 等人提出的,用于清晰度水平预测。它包含以下六个特征:
-
零阶 MFCC 一阶导数的标准差。该参数与信号的对数能量相关,可用于检测语音强度中的异常。
-
线性预测残差的峰度。该特征可以提供有关声音嘶哑、音量损失或声音气喘的信息。
-
低调制与高调制比率 (LHMR)。该参数是对语音信号调制谱中包含的信息的总结。特别是,它是一个商,比较了低调制频率(小于 4 Hz)和高调制频率(大于 4 Hz)处的调制谱能量。
-
三个与韵律相关的特征:话语中浊音段的百分比,以及基频的标准差和范围。第一个特征可以提供有关由于发声器官障碍导致的浊音发音异常的信息。第二个和第三个参数有助于检测单调语音(构音障碍的一种症状)以及声音中的颤抖和震颤。
对数梅尔谱图
最后一组特征对应于音频信号的谱图,该谱图首先使用由梅尔尺度滤波器组成的听觉滤波器组映射到梅尔频率间距,然后转换为对数尺度。梅尔尺度是一种频率扭曲,试图模拟人类听觉在不同频率下的非均匀敏感性。
03
分类器
一般的分类器主要分为SVM和LSTM。SVM主要采用一对一策略和高斯核。LSTM 是一种专门设计用于处理序列数据的神经网络架构,具有记忆单元和门控机制,可以有效地处理长期依赖关系。在文章中,作者设计了几种不同的 LSTM 架构来进行分类任务,包括基本 LSTM、LSTM with Mean-Pooling 和 LSTM with Attention-Pooling。
这些 LSTM 架构会接受音频记录中的特征作为输入,并通过训练学习特征之间的关系,从而对音频记录进行分类。训练过程中,使用了随机梯度下降和 Adam 优化方法来调整网络参数,以使模型能够更好地拟合数据。此外,在某些架构中还实施了 dropout 技术,以减少过度拟合现象。
在实现 LSTM with Attention-Pooling 架构时,还引入了注意力机制,用于动态地计算每个 LSTM 帧的权重,以便更加关注对分类任务有重要影响的帧。这有助于提高模型的性能和准确率。
实 验
01
数据库
用于实验的数据集是 UA-Speech 数据库,包含 15 人患有不同程度构音障碍和 13 名健康对照组人员的录音。音频以 16 KHz 频率使用 7 个麦克风录制,包括数字、计算机命令、简单词语、复杂词语和无线电字母表。数据库中的语音根据专家听录音并写下理解的单词百分比进行医学测试,得到清晰度得分,范围为 0 到 100,经修改后分为低清晰度、中等清晰度和高清晰度三个类别。实验未使用健康对照组的音频,仅考虑第六个麦克风上的语音信号,总文件数量为 9,140 个。实验以说话者无关方式配置,训练集、验证集和测试集中包含不同的说话者,避免模型学习说话者身份或环境声学条件而非清晰度水平。
02
预处理和特征提取
在预处理阶段,对语音信号进行分帧和加窗,并使用 VAD(语音活动检测)来去除静音片段。特征提取方面,参考系统使用了三种特征:MFCC 和其一阶导数、调制谱的平均能量以及 Falk’s features。LSTM 系统则使用 log-mel spectrogram 特征,该特征包含 32 个 log-Mel 滤波器能量,每 10 毫秒计算一次。
03
分类器
参考系统使用 SVM 分类器,采用 one-vs-all 策略和高斯核函数。LSTM 系统则使用了三种不同的 LSTM 架构:Basic LSTM、LSTM Mean-Pooling 和 LSTM Attention-Pooling。
04
结 果
实验结果表明,LSTM 系统在该任务中取得了更好的性能,特别是 LSTM Attention-Pooling 架构,其准确率达到了 76.97%±0.28%,显著优于参考系统。Mean-Pooling 策略进一步也提升了 LSTM 模型的性能,表明 LSTM 框架中的所有帧都包含有价值的信息,不应完全舍弃。而注意力机制通过学习语音片段的重要性,进一步提升了 LSTM 模型的性能,表明该机制在处理语音清晰度分类任务中具有显著的优势。最后,VAD 预处理步骤对于语音清晰度分类任务的性能提升并不显著,甚至可能导致性能下降。这表明沉默片段和语音中的其他人工制品(如口吃或犹豫)可能包含有关语音清晰度的重要信息。
表:基于lstm的分类器实现的分类率[%]
结 论
参考文献
1. Fernández-Díaz M, Gallardo-Antolín A. An attention Long Short-Term Memory based system for automatic classification of speech intelligibility[J]. Engineering Applications of Artificial Intelligence, 2024, 96: 103976.
中国保密协会科学技术分会
作者:潘泊凡 中国科学院信息工程研究所
责编:冯越
2003年精彩文章TOP5回顾
近期精彩文章回顾
原文始发于微信公众号(中国保密协会科学技术分会):基于注意力长短期记忆的语音可理解度分类系统
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论