基于文本分类的隐私政策合规性分析

2022年5月26日12:35:35评论119 views字数 1103阅读3分40秒阅读模式

基于文本分类的隐私政策合规性分析

原文作者：Shuang Liu, Baiyang Zhao, Renjie Guo, Guozhu Meng, Fan Zhang, Meishan Zhang
原文标题：Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13
原文链接：https://dl.acm.org/doi/abs/10.1145/3442381.3450022
原文来源：WWW '21: Proceedings of the Web Conference 2021
笔记作者：CJRTnT@SecQuan
笔记小编：bight@SecQuan

介绍

本文针对GDPR中的第13章对隐私政策进行合规性研究。

GDPR第13章对APP隐私政策进行了以下如图1所示的9项规定，例如1. Collect Personal Info → Data Retention Period 代表如果APP要收集用户信息，则必须告知用户数据保留期限

图1

方法

图2

本文提出的方法如上图2所示，输入一篇隐私政策文本，首先进行文本分类，然后进行合规性验证，输出检测结果。

文本分类

对隐私政策文本的每个句子分为以下10类（1.收集个人信息CPI；2. 数据保存期限DRP；3.数据处理目的DPP；4.个人信息控制者的联系方式CD；5.用户的访问权RA；6.用户修改/销毁权PRE；7.用户限制对个人信息处理的权利RRP；8.用户拒绝处理数据的权利ROP；9.用户对数据的转移权利RDP；10.用户投诉权RLC）：

图3

合规性验证

GDPR第13章的9项规定（图1）可以表示为“if A holds, then B must be satisfied”，A即“APP需要收集个人信息”，B即“隐私政策中需要向用户告知的内容”，其又可以进行如下表示（图4）：

图4

也就是说，如果一个隐私政策是合规的，它要么“并未说明要收集用户个人信息”，要么“告知了用户所有必要内容”，于是通过第一步的文本分类任务可以直接进行合规性验证（文本分类任务中，第1类为“收集个人信息”，用于判断文本中是否有句子表明了要收集个人信息；第2-10类为隐私政策中需要告知用户的必要内容），即如果隐私政策合规，那么该隐私政策中的句子的预测标签要么不存在1，要么就要同时包含2-10。

结果

本文用了SVM（将n-gram和tf-idf作为特征）、BiLSTM和BERT作为三个不同的分类模型，其结果如下图：

图5

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

基于文本分类的隐私政策合规性分析

原文始发于微信公众号（安全学术圈）：基于文本分类的隐私政策合规性分析

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

美航天供应链委员会（S2C2）首批成员调研报告

网警VS黑客谁的技术更厉害

网络安全行业，如何诠释干就完了

《校园风波起：叛逆学生不服管教，竟远控木马入侵辅导员主机，这是什么操作？》

安全是底线：30字概括低空经济六大关键要素

美国NSA的Tutelage系统：构建APT防御中间层的威胁建模与引导监控体系

信任的裂痕——当我们的工具成为攻击者的武器

AI代码审计：传统SAST还能走多远？

PowerShell 实战指南

网安人的日常

发表评论

在线咨询

微信