跨域人脸伪造识别
背景介绍
基于深度学习的人脸伪造(深度人脸伪造),即根据某些给定条件生成在视觉上难以辨别的人脸图像,在过去几年里已经得到了长足的发展。该技术对许多下游应用(例如电影制作和娱乐行业)产生了重大影响。然而,与此同时,这项技术也可能被恶意利用:侵犯隐私或破坏信任体系,给现代社会带来了负面影响。相比之下,深度伪造检测旨在从一系列潜在图像中识别出伪造图像。该领域的主流工作可分为两类:1)设计更优的模型以提升性能;2)构建包含更多人脸图像和深度伪造生成方法的数据集,以进行更稳健的模型训练。深度伪造检测最近在学术界和工业界都引起了广泛关注,因为它被视为现代信息系统的重要组成部分。例如,它可以防止金融认证系统中的欺诈行为,以及阻止网络平台上谣言的传播。
目前遇到的挑战
当前,主流的数据集都着力于构建一个无所不包的数据集,它们囊括了尽可能多的深度伪造生成方法。在这些数据集上训练的模型,在面对训练集中出现过的深度伪造图像时,能够取得出色的表现。然而,当它们遇到未见过的伪造图像时,性能就会下降。我们将这种现象称为深度伪造检测中的域偏移问题。
在现实场景中,深度伪造人脸攻击具有两个显著特征:1)采用大量的深度伪造方法,以突破防御防线;2)一旦攻击成功,饱和式攻击可能会在短时间内使系统瘫痪。由于业界总会开发出新的深度伪造生成方法,任何现有的成熟深度伪造检测系统在未来某个时刻都可能会失效。这种“域偏移”问题对任何依赖人脸的应用程序(例如人脸支付场景)构成了巨大威胁,因此,为了保障应用场景的稳定性,迫切需要对这一问题展开研究。
为了让更多人关注这一问题,我们提议将深度伪造检测任务与领域泛化问题结合起来解决。具体而言,如图1所示,我们特意构建了一个分布有偏移的数据集,其中涵盖了深度伪造方法的变化以及人种的变化,以此来评估深度伪造检测模型的泛化能力。我们希望更具泛化性的检测算法可以被提出:它能够学习到广泛适用于各种伪造图像的特征,而非过度拟合特定伪造手段所产生的痕迹。
数据集介绍
在构建数据集聚焦于域泛化问题。具体来说
1)我们从互联网上收集图像,并手动对这些图像进行不同种类的深度伪造生成操作以构建伪造图像。
2)我们使用一个成熟的人脸识别模型来检测每张人脸所属的人种。
3)在构建训练和测试集时,显示地保证两者在人种和深度伪造方法上存在差异,以此模拟域偏移现象。
数据集描述如下:
训练集:规模达数十万万,数据集中包含真实图像和深度伪造图像,伪造图像由深度伪造生成方法 生成,且涵盖人种 。
测试数据集1:该数据集规模为十万,包含真实图像和深度伪造图像。此数据集涵盖人种 ,并包含深度伪造生成方法 。我们确保:
测试数据集2:此数据集不会对外公布,该数据集规模为十万,包含真实图像和深度伪造图像。此数据集涵盖人种 ,并包含深度伪造生成方法 。我们确保该数据集的分布与之前提及的数据集不同:
数据集下载地址
公众号发送【报名】即可获取链接
算法大赛
信也科技正依托于该数据集举办第十届信也杯算法大赛,https://ai.ppdai.com/mirror/goToMirrorDetailSix?mirrorId=36,欢迎各位参赛者踊跃报名!
原文始发于微信公众号(北邮 GAMMA Lab):跨域人脸伪造识别
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论