今天给大家介绍的是来自在NDSS 2025上的论文SongBsAb: A Dual Prevention Approach against Singing Voice Conversion based Illegal Song Covers,由由鹏城实验室、新加坡国立大学、中科院软件所、美国纽约州立大学石溪分校,澳大利亚莫纳什大学和新加坡南洋理工大学联合完成并投稿。
在这项工作中,研究团队针对基于歌声转换的歌曲非法翻唱提出了一种“先发制人”的主动式治理方案,核心思路是往歌曲中加入不影响人类听觉的扰动,当这些受保护的歌曲被用作歌声转换的输入时,生成过程会受到干扰,导致输出的翻唱歌曲同时在歌手歌声以及歌词两方面偏离预期。
歌声转换(Singing Voice Conversion, SVC)技术可以将一名歌手的演唱自动转换为另一名歌手的声线风格,同时保留原曲的歌词和旋律。SVC 接收两个输入,其中源歌曲提供歌词和旋律信息,而目标歌曲提供歌手的歌声或演唱风格信息。这意味着即使普通用户不会唱歌,也能利用SVC生成顶级歌手的“翻唱”版本。典型案例是“AI孙燕姿”,短短一个多月内便发布近千首翻唱歌曲,播放量和关注度远超孙燕姿本人职业生涯总和。
图1:歌声转换示意图,输入包括目标歌曲(左上,提供目标歌手歌声信息)和源歌曲(左下,提供歌词和旋律信息)
虽然SVC技术带来创作便利,这一技术的低门槛也带来了版权与民事权利的新风险,对音乐行业造成巨大冲击,如:歌手的声音民事权、名誉权被侵犯;歌手赖以生存的技能竞争力被削弱;唱片公司遭遇不正常竞争;唱片公司的歌曲发布权和传播权被侵害;词和曲的版权被侵犯。
针对上述问题,该工作提出了首个主动防御SVC滥用的技术方案 SongBsAb。与传统在侵权发生后事后检测不同,SongBsAb在歌曲发布前对歌曲人声添加精心设计的微小扰动,从源头上阻止非法翻唱行为。其核心策略是“双重防护”:同时保护歌曲不被用作 SVC 的源歌曲和目标歌曲(事实上歌曲拥有者无法提前预测他们的歌曲被 SVC用作哪一种输入)。具体地,SongBsAb引入两类扰动目标:
-
身份扰动:防止受保护歌曲被用作目标歌曲。针对SVC的身份编码器生成对抗扰动,使得SVC模型生成的翻唱歌曲听起来不像目标歌手,甚至听起来像异性歌手的声音,从而保护目标歌手的民事权利。
-
歌词扰动:防止受保护歌曲被用作源歌曲。针对SVC的歌词编码器生成对抗扰动,使得SVC模型生成的翻唱歌曲的歌词含糊不清或偏离原始歌词,从而保护歌词版权。
通过以上双重扰动,SongBsAb可以直接保护歌手对于自己歌声的民事权以及歌词的版权,其他权利(如曲的版权、歌曲的复制发行权)可以得到间接保护,因为SongBsAb 会显著削弱歌声转换的效果,从而抑制基于SVC的翻唱作品的发布、传播和SVC工具的使用。
图4:SongBsAb示意图-2(可与图1进行直观对比)
-
身份扰动(Identity Disruption):SongBsAb利用性别转换损失(gender-transformation loss)来强化身份扰动。其目标是让受到保护的歌声在经过SVC转换后,听起来不像目标歌手,甚至像一位与目标歌手性别相反的“伪歌手”。具体做法是先构造目标歌手身份特征的扰动方向(通常选择与原歌手异性且特征差异最大的辅助歌手),然后优化使得保护后的歌曲的身份特征远离原特征。由于人类听觉能轻易辨别来自不同性别的人的声音,这一设计可极大降低SVC生成歌曲与目标歌手声音的相似度。
-
歌词扰动(Lyric Disruption):SongBsAb采用高低层级多目标损失(high/low hierarchy multi-target loss)来扰乱歌词信息。它首先选取歌词与待保护歌曲的歌词不同的其他曲目,将受保护歌曲的歌词特征拉向选定的其他曲目的歌词特征,从而使得经过SVC转换后的歌词信息混淆不清或与原曲不匹配。该策略既在高层语义特征空间对齐不同歌曲歌词,同时也在低层声学特征上进行对齐,从而从多个层面扰乱SVC的歌词提取过程。而多目标方案(使用多个不同歌词的歌曲)进一步增强了歌词扰动的强度。
-
无损性设计(Harmlessness):为了保证听众体验不受影响,SongBsAb在扰动设计中融入了心理声学模型。具体地,它将原始人声和伴奏同时作为掩蔽器,优化扰动使其功率低于两者的掩蔽阈值。换言之,只要扰动落在原唱人声或伴奏的掩蔽曲线之下,它在人耳中就几乎不可觉察。这种利用伴奏(歌曲特有的多声道元素)作为额外掩蔽器的设计,相比仅使用人声作为掩蔽器,使得扰动在歌曲中进一步“隐身”,有效提高了防护的无感知度。
-
迁移性增强(Transferability):考虑到实际攻击者可能使用未知的SVC模型,SongBsAb采用了帧级交互削减损失(FL-IR loss)和编码器集成两种手段来提升扰动的通用性。前者通过在音频帧级减少扰动单元之间的相互依赖,后者则同时在多种身份/歌词编码器上生成对抗扰动,实现跨模型泛化。二者互为补充,共同增强了SongBsAb针对未知SVC的防护能力。
研究团队在中文歌声数据集OpenSinger以及英文歌声数据集NUS-48E上,对主流的4个few-shot SVC模型(Lora-SVC、VITS-SVC、Grad-SVC、NeuCo-SVC)进行了全面测试。评估指标包括翻唱歌曲的目标歌手歌声相似度 (Identity Similarity)、歌词错误率(Lyric WER)以及SVC转换成功率的下降幅度(SRR)等。
结果表明,SongBsAb显著削弱了SVC效果:被保护歌曲经转换后与目标歌手的歌声相似度大幅下降,歌词错误率显著上升,使得翻唱的成功率降低超过97%。与之前针对普通语音转换的防御方法相比,SongBsAb在防护效果和保持歌曲音质上均有明显优势。
在基于用户问卷调查的主观实验中,测试听众普遍无法听出扰动的存在,验证了SongBsAb对歌曲可感质量的无损性。另外,SongBsAb在未知模型迁移性测试中也表现优秀,并在真实环境下展示出较强鲁棒性:即使保护歌曲在空气信道中被录制后再用于SVC输入,或SVC使用者使用基于已有信号处理方法的预处理、基于优化的预处理和微调SVC模型这三种技术手段尝试规避SongBsAb的保护,SongBsAb仍能有效保护歌声不被正常转换。
SongBsAb将主动防御理念引入SVC非法翻唱领域,提出了防止音乐作品被AI滥用的方案。该方法从技术上提出了对抗SVC的“双扰动”框架,为音乐版权保护提供了新的思路。
研究团队开源了音频样例和项目代码,欢迎对AI生成歌曲和生成式音频治理感兴趣的同行们拍砖和多多交流!
论文链接:https://arxiv.org/pdf/2401.17133
音频样例:https://sites.google.com/view/songbsab
开源代码:https://github.com/SongBsAb/SongBsAb
陈光科,SongBsAb第一作者,博士毕业于上海科技大学,研究方向为人工智能安全,特别是语音安全和人工智能生成音频治理,以第一作者身份发表安全四大会议S&P, USNEIX Security, NDSS 4篇(其中S&P论文被引260余次)和安全旗舰期刊IEEE TDSC 2篇,其博士学位论文荣获2024年度上海市计算机学会优秀博士学位论文提名奖,受邀担任ICICS 2021/2022和ACNS 2025等多个会议的程序委员会委员以及INTERSPEECH 2023/2024/2025, IEEE TDSC, IEEE TIFS, ACM TOPS和Springer Cybersecurity等多个会议和期刊的审稿人。
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2025-05-21 “AI孙燕姿”爆火,SongBsAb直面AI翻唱治理
评论