『杂项』数据溯源与验真的探索之路（3）

admin

143027
文章

118
评论

2024年2月15日16:27:18评论19 views字数 1883阅读6分16秒阅读模式

你已选中了添加链接的内容『杂项』数据溯源与验真的探索之路（3）

点击蓝字关注我们

日期：2023-11-08

作者：H4y0

介绍：数据安全比赛中常有数据溯源与数据验真类的题目，学到了很多有意思的东西，将这个有趣的过程分享给大家。

0x00 前言

相对于固定格式的数字或字母，正则表达式处理中文就有些力不从心了。而数据安全中需要处理中文部分一般都是含有一定语义的自然语言，可以通过自然语言处理来获取其中的敏感数据。

0x01 NLP与NER

1.1 NLP

自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智慧和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。简单来说，NLP就是让计算机去理解自然语言，包括分析语句的意思、拆分语句、分析词性等。以HanLP为例:

『杂项』数据溯源与验真的探索之路（3）

1.2 NER

命名实体识别（英语：Named Entity Recognition，简称NER），又称作专名识别、命名实体，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。同样以HanLP为例：

可见NER可以识别自然语言中的人名、地名、机构等。结合赛题的题目要求，以某数据安全竞赛决赛题目为例：

题目中明确提出了可使用NER等手段提取数据，根据题目要求和线下环境，如何使用NER提取数据，且看下文。

『杂项』数据溯源与验真的探索之路（3）

0x02 HanLP

2.1 安装

HanLP是一个开源的面向研究人员和公司的多语种NLP库，提供了轻量级RESTful API，使用起来非常方便，可以申请免费公益API，具体可见：

https://github.com/hankcs/HanLP

但线下赛无法接入互联网，HanLP也可以搭建在本地。直接使用pip安装即可。

pip install hanlp[full]

2.2 NER demo

以提取学校名为例：

import hanlpimport hanlp.utilsimport osimport jsonHanLP = hanlp.pipeline()     .append(hanlp.utils.rules.split_sentence, output_key='sentences')     .append(hanlp.load('FINE_ELECTRA_SMALL_ZH'), output_key='tok')     .append(hanlp.load('MSRA_NER_ELECTRA_SMALL_ZH'), output_key='ner', input_key='tok')# 测试文本text = '那些那些会员学习我的有关,阜阳市第四初中其实设计感觉免费自己记者一般。'#分词result = HanLP(text, tasks='ner/msra')names = []addresses = []schools = []#print(result)for sentence in result['ner']:    if len(sentence)!=0:        for tup in sentence:            if tup[1]=='ORGANIZATION':                schools.append(tup[0])print(schools)

当然，也可以通过读取文件的方式提取一个txt中所有的学校名。

由于提取的内容为所有的组织机构，所以最终的结果除了学校之外还会有其他机构，该类题目的评分标准与准确率有关，如何提高准确率成为了新的问题。

2.3 准确率相关

一个简单的办法，我们可以进行后处理来提高准确率，方法如下：

使用正则表达式匹配学校名称（不推荐）。

使用上下文信息，例如“大学”、“初中”、“小学”等词汇，可筛选含有这些上下文信息的实体。

训练模型，通过标注等方式训练模型提取学校信息。

如果有给定数据，可通过白名单的方式进行筛选，提取数据后与白名单比较，匹配则保留。

回到上文提取姓名、地址，要注意的是题目中给出了省市数据address.txt，所以地址的提取可通过白名单的方式进行实体的筛选。姓名的提取往往较为准确，一般不需要筛选。

『杂项』数据溯源与验真的探索之路（3）

0x03 总结

NER提取自然语言中的敏感信息是一种非常方便且有效的方式，但是要注意对实体的筛选及处理来提高准确率。如果可以的话可以针对数据类型去训练模型，这才能最好地发挥NER的优势。

推荐阅读

『杂项』数据溯源与验真的探索之路（1）

06-02 特稿

『杂项』数据溯源与验真的探索之路（2）

07-26 特稿

免责声明：本文仅供安全研究与讨论之用，严禁用于非法用途，违者后果自负。

点此亲启

原文始发于微信公众号（宸极实验室）：『杂项』数据溯源与验真的探索之路（3）

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

『杂项』数据溯源与验真的探索之路（3）

0x00 前言

0x01 NLP与NER

1.1 NLP

1.2 NER

0x02 HanLP

2.1 安装

2.2 NER demo

2.3 准确率相关

0x03 总结

G.O.S.S.I.P 阅读推荐 2025-06-06 127.0.0.1 窃听风暴

印度APT组织Bitter揭秘：苦心经营八年的网络间谍

音频水印：藏在声音里的隐形保镖，让泄密无处遁形

伊朗APT组织BladedFeline在目标网络潜伏了8年

2025年离大谱的CVE-2011-10007

上海理工大学 | ATVITSC: 一种基于深度学习的新型加密流量分类方法

【深度好文】勒索软件攻击生命周期运行分析

WPS如何删除文档中多余的空白页？

利用开源和非开源方法，追踪佩戴Oura Rings的航母船员信息

诸子云｜甲方：怎么看待AI大模型安全？

发表评论

在线咨询

微信